Problem

目前多模態大語言模型在將科學圖表逆向工程為可編輯的 TikZ 程式碼時,面臨空間精準度不足的嚴峻挑戰。現有的影像與程式碼對照資料通常缺乏嚴謹的可執行性與視覺對齊,且業界亦缺乏能同時評估結構邏輯與視覺忠實度的完整基準測試。

Method

研究團隊開發了以執行為核心的資料引擎,建構包含 11 種學科、23 萬筆高品質資料的 SciTikZ-230K 資料集,並設計了 SciTikZ-Bench 評測基準。此外,提出「雙重自洽強化學習」範式,透過「來回驗證」(Round-Trip Verification)機制懲罰退化程式碼,優化整體的自洽性。

Results

實驗證明,僅有 8B 參數規模的 SciTikZer-8B 模型在科學繪圖合成任務中展現了最先進(SOTA)的性能。其表現不僅穩定超越商用的 Gemini-2.5-Pro,更勝過參數量高達 235B 的 Qwen3-VL-235B-A22B-Instruct 等大型模型。

Significance

此研究解決了科學繪圖自動化的關鍵痛點,讓靜態圖表能更精準地轉換為具備程式化彈性的 TikZ 程式碼。透過創新的強化學習框架,證明了在特定專業領域中,高品質資料與優化策略能使輕量級模型展現出超越巨型模型的強大競爭力。