Problem
目前的視覺語言模型(VLM)雖在一般程式碼生成表現優異,但對於如何將真實世界的複雜數據轉換為精確的多面板(multi-panel)可視化圖表,仍缺乏系統性的評估。現有的基準測試多偏向簡單圖形,難以反映模型在處理具有明確分析意圖且結構複雜的真實資料時的真實實力。
Method
研究團隊開發了名為 RealChart2Code 的大規模基準測試,收錄超過 2,800 個基於真實數據集的實例。該測試首度系統化評估模型從大規模原始資料生成圖表的能力,並特別設計了多輪對話情境,藉此測試模型在互動過程中迭代修正程式碼的效果。
Results
針對 14 款頂尖視覺語言模型的測試顯示,與簡單基準測試相比,模型在 RealChart2Code 上的表現大幅下滑。研究發現專有模型與開源模型之間存在顯著的性能差距,且即便是目前最強大的模型,在重現精密且複雜的多面板圖表時仍面臨巨大挑戰。
Significance
這項研究填補了圖表生成評估的空白,揭示了現有技術與實際應用需求間的鴻溝。透過釋出基準測試與程式碼,本研究為未來強化視覺語言模型在數據可視化、複雜結構理解及交互式程式碼優化等領域的研發提供了重要的指引與測試基礎。