VisionFoundry：利用合成影像訓練大型視覺語言模型，顯著提升空間理解與感知能力

本研究推出 VisionFoundry 框架，僅需任務名稱即可透過 LLM 與圖像生成模型自動產出高品質合成資料，有效解決視覺語言模型在空間與低階視覺感知上的長期瓶頸。

Problem

視覺語言模型（VLM）在空間理解與視角識別等低階視覺任務上表現不佳，主因在於現有的自然影像資料集通常缺乏針對這些特定技能的精確監督標註與訓練資訊。

開發 VisionFoundry 管線，僅需輸入任務名稱，系統便會驅動大型語言模型（LLM）產生問答對與圖像生成提示詞，再由文字轉影像模型合成圖片，最後經商用 VLM 驗證一致性，全程無需人工標註或參考影像。

透過 VisionFoundry-10K 資料集訓練，模型在 MMVP 基準測試提升了 7%，在 CV-Bench-3D 則提升 10%，且實驗證實模型效能會隨著合成資料量的增加而呈現良好的擴展趨勢。

研究證實缺乏特定任務的監督是視覺感知的核心瓶頸，並展示了合成監督資料能以更系統化且低成本的方式強化模型，為視覺語言模型的未來訓練開闢了具潛力的自動化路徑。