Problem

視覺語言模型(VLM)在空間理解與視角識別等低階視覺任務上表現不佳,主因在於現有的自然影像資料集通常缺乏針對這些特定技能的精確監督標註與訓練資訊。

Method

開發 VisionFoundry 管線,僅需輸入任務名稱,系統便會驅動大型語言模型(LLM)產生問答對與圖像生成提示詞,再由文字轉影像模型合成圖片,最後經商用 VLM 驗證一致性,全程無需人工標註或參考影像。

Results

透過 VisionFoundry-10K 資料集訓練,模型在 MMVP 基準測試提升了 7%,在 CV-Bench-3D 則提升 10%,且實驗證實模型效能會隨著合成資料量的增加而呈現良好的擴展趨勢。

Significance

研究證實缺乏特定任務的監督是視覺感知的核心瓶頸,並展示了合成監督資料能以更系統化且低成本的方式強化模型,為視覺語言模型的未來訓練開闢了具潛力的自動化路徑。