Problem
現有的多模態強化學習框架(如 GRPO)在處理多元視覺任務時,面臨獎勵拓撲變異極大、容易受極端離群值干擾,且難以在細粒度視覺感知與多步驟邏輯推理之間取得平衡等嚴峻挑戰。
Method
研究團隊開發了「高斯 GRPO(G^2RPO)」,以非線性分佈匹配取代標準線性縮放,將優勢分佈強制收斂至標準常態分佈,確保跨任務梯度公平性。此外,透過「回應長度塑型」與「熵值塑型」兩大機制,動態調節推理鏈長度並穩定模型的探索空間。
Results
整合上述技術的 OpenVLThinkerV2 在 18 項涵蓋不同領域的基準測試中展現出極強的強韌性,其性能不僅超越了主流的開源多模態模型,更在多項指標上領先於頂尖的商用專有模型。
Significance
此研究為開發通用的視覺推理模型提供了關鍵的理論基礎與訓練範式。透過解決強化學習在多模態任務中收斂不穩定的痛點,該模型成功將長鏈推理能力擴展至廣泛的視覺應用場景中。