Problem
現有最強大的視覺語言模型多依賴不對外公開的強化學習流程與私有資料,導致開源社群缺乏能同時處理複雜圖表、科學邏輯及空間理解的全方位視覺推理方案,且模型背後的訓練細節與配方長期難以復現。
Method
開發 Vero 模型系列並建構包含 60 萬個樣本的大規模資料集 Vero-600K。研究團隊設計了「任務路由獎勵」機制以處理異質的答案格式,並針對六大核心任務類別進行大規模強化學習訓練,系統性地擴展 RL 資料與獎勵訊號。
Results
Vero 在包含 30 項挑戰的 VeroEval 基準測試中,效能較基礎模型平均提升 3.7 至 5.5 分。以 Qwen3-VL-8B 為基礎訓練的模型,在不使用任何私有思維資料的前提下,於 23 個測試項目中超越了原廠的 Qwen3-VL-8B-Thinking 版本。
Significance
研究證實了廣泛的資料覆蓋率是推動強化學習規模化(RL scaling)的核心關鍵,不同任務間的推理模式存在難以孤立轉移的特性。透過全面開源資料、程式碼與模型,本研究為建立高效能視覺推理模型提供了透明且可複製的技術路徑。