Problem

多模態大語言模型的推論能力提升高度依賴高品質的人工標注資料或教師模型蒸餾。然而,這類方法的獲取成本高昂且難以大規模擴展,限制了模型在缺乏監督信號時的自主進化潛力。

Method

提出一種無監督自進化訓練框架。系統針對每個輸入取樣多個推論路徑,利用「執行者」的自我一致性信號作為訓練先驗,並引入基於「評判者」的調節機制對不同品質的路徑進行動態加權。最後,透過群組相對策略優化(GRPO)將絕對分數轉換為群組內的相對優勢,在無標注資料上實現強健的策略更新。

Results

該方法在五項數學推論基準測試中展現出穩定的效能提升。實驗證實,模型不僅能有效優化推論邏輯,在未見過的任務上也具備優異的泛化能力,且全程無需使用任何人工標注答案或外部獎勵模型。

Significance

此研究為多模態模型的規模化發展開闢了新路徑,證明了 AI 系統具備在無外部監督下達成自主進化的可能性。這不僅大幅降低了開發成本,也為邁向更具韌性且可擴展的通用人工智慧(AGI)提供了關鍵技術支撐。