OpenVLThinkerV2：透過高斯 GRPO 優化技術，打造具備極強推理能力的通用多模態大模型

本研究提出 G^2RPO 訓練目標，透過高斯分佈匹配解決多模態任務獎勵不均的問題，並結合長度與熵值塑型機制，顯著提升 OpenVLThinkerV2 在複雜感知與推理任務中的表現。

Problem

現有的多模態強化學習框架（如 GRPO）在處理多元視覺任務時，面臨獎勵拓撲變異極大、容易受極端離群值干擾，且難以在細粒度視覺感知與多步驟邏輯推理之間取得平衡等嚴峻挑戰。

研究團隊開發了「高斯 GRPO（G^2RPO）」，以非線性分佈匹配取代標準線性縮放，將優勢分佈強制收斂至標準常態分佈，確保跨任務梯度公平性。此外，透過「回應長度塑型」與「熵值塑型」兩大機制，動態調節推理鏈長度並穩定模型的探索空間。

整合上述技術的 OpenVLThinkerV2 在 18 項涵蓋不同領域的基準測試中展現出極強的強韌性，其性能不僅超越了主流的開源多模態模型，更在多項指標上領先於頂尖的商用專有模型。

此研究為開發通用的視覺推理模型提供了關鍵的理論基礎與訓練範式。透過解決強化學習在多模態任務中收斂不穩定的痛點，該模型成功將長鏈推理能力擴展至廣泛的視覺應用場景中。