在快速變動的全球市場中,企業為加速並優化決策,可能會部署生成式人工智慧模型來協助摘要與解讀市場概況和財務報告中常見的圖表。然而,即使是最新的視覺語言模型(VLM)有時仍難以勝任這項任務,因為它需要模型整合視覺、數值和語言理解能力。投資於最先進模型的公司,仍可能收到不準確或不完整的資訊。
為彌補這項效能落差,MIT 與 MIT-IBM Computing Research Lab 的研究員開發了一項多面向的AI使用者資源,專門設計用於教導視覺語言模型(VLM)如何有效解讀圖表。他們採用新穎的資料生成方法,建立了一個包含超過一百萬張多樣化圖表的最先進資料集。
該資料集還編碼了每張圖表影像的許多視覺、語言和數值組成部分,使模型能夠穩健地推理圖表中的資訊。研究員利用這個名為 ChartNet 的資料集,訓練了一系列開源 VLM。其中許多較小的模型在資料擷取和圖表摘要等任務上,顯著超越了規模大數倍的商業模型。
透過讓開源模型超越其商業對手,ChartNet 有望使預算有限的小型公司更容易利用 AI。這個開源資料集可用於提升 AI 模型在商業趨勢分析和科學圖表解讀等任務上的能力。MIT 電機工程與電腦科學(EECS)研究生,同時也是 ChartNet 論文主要作者 Jovana Kondic 表示:「我們開發 ChartNet 是為了成為圖表理解的一站式解決方案,涵蓋了 AI 模型以及訓練該模型的實務工作者可能需要的一切。
我們希望這項工作能激勵研究員,利用不需要無限運算資源的較小模型,實現最先進的效能。」共同參與這篇論文的還有來自 MIT、MIT-IBM Computing Research Lab 和 IBM Research 的多位合著者,包括 IBM Research 研究員 Pengyuan Li;IBM Research 資深科學家 Dhiraj Joshi;IBM Research 軟體工程師 Isaac Sanchez;MIT Schwarzman College of Computing 策略產業合作主任、MIT-IBM Computing Research Lab MIT 主任兼電腦科學與人工智慧實驗室(CSAIL)資深研究科學家 Aude Oliva;以及 MIT-IBM Computing Research Lab 首席科學家兼經理 Rogerio Feris。
這項研究將在 IEEE 電腦視覺與模式識別會議上發表。資料集瓶頸Kondic 表示,研究員在開發擅長自然語言處理和推理自然圖像的生成式 AI 模型方面已取得巨大進展。然而,針對解讀圖表中複雜的多模態資料,相關研究卻較少。然而,對於幾乎所有產業的大型和小型企業而言,圖表理解都是一項關鍵任務。
Joshi 指出:「金融業仰賴圖表蓬勃發展。如果視覺語言模型能夠從圖表中擷取資訊,例如趨勢描述,這將極大促進許多後續的工作流程。」缺乏高品質的訓練資料是阻礙 VLM 準確解讀圖表發展的主要瓶頸。許多資料集包含從網路擷取的有限圖表影像,且通常缺乏必要的規模和額外資訊來幫助模型解讀底層資料。
Kondic 說:「視覺語言模型不像我們的大腦,在訓練期間可能需要看到數千個範例,才能可靠地辨識出某物為折線圖。」研究員試圖透過生成合成資料來克服這些缺點。合成資料是由演算法人工生成,旨在模仿實際資料的統計特性。ChartNet 資料集包含超過一百萬張高品質圖表影像,以及用於生成每張圖表的對應程式碼、文字描述和包含其數值資訊的表格。
此外,每個資料點都包含問答對,以教導模型如何正確回答有關圖表影像的問題。Kondic 表示:「這些額外的資料模式引導模型連接並對齊圖表影像所編碼的不同資訊片段。」資料生成為建構 ChartNet,研究員建立了一個兩步驟的合成資料生成流程。首先,他們的自動化系統將任何預先存在的圖表影像集轉換為程式碼。
接著,系統會迭代增強該程式碼,以改變每張圖表的不同方面,例如圖表類型、資料數值、主題、顏色等。Kondic 解釋說:「我們可以從一張作為種子的圖表開始,然後產生數百種增強版本。這就是我們能夠建立一個包含超過一百萬張多樣化影像的資料集的方式。」
他們還納入了自動化品質檢查流程,以確保合成資料的高品質。此流程驗證程式碼是可執行的,並且渲染後的圖表影像準確且清晰。她說:「我們不只是想生成多樣化的樣本,我們也希望資訊能以有意義的方式呈現。」ChartNet 還包含一部分由人類專家標註的圖表資料點。
這提供了額外類型的圖表和支援資料,並帶有有效性保證。Joshi 補充說,實務工作者可以使用這些標註資料來微調現有的 VLM,進一步提升特定應用程式的效能。研究員透過訓練 IBM 的 Granite Vision 系列模型以及其他幾個不同規模的開源模型來測試 ChartNet,並在各種圖表解讀任務上進行評估。
該資料集提升了所有模型在圖表重建、圖表資料擷取、圖表摘要和圖表問答方面的準確性。藉由 ChartNet,小型開源模型持續超越了規模大得多的商業模型。Kondic 表示:「許多先前的訓練資料集只專注於回答關於圖表的簡單問題。我們試圖透過 ChartNet 超越這一點,生成支援穩健圖表理解所有方面的資料。」
未來,研究員計畫透過納入增加複雜度的資料來繼續擴展 ChartNet。他們也希望借鑒研究社群的回饋。這項研究部分由 MIT-IBM Computing Research Lab 資助。
