Problem
在大型語言模型的後訓練階段,整合多個專家能力至單一模型時常面臨能力損耗。混合強化學習(RLVR)易產生不同能力間的發散衝突,而傳統「先訓練專家再進行政策蒸餾」(OPD)的模式,則會因為師生模型間的行為模式差異過大,導致學生模型無法完全吸收專家的知識精髓。
Method
研究團隊開發了「協同演化政策蒸餾」(CoPD)框架,核心在於將專家模型的平行訓練與線上政策蒸餾同步化。不同於傳統的線性流程,CoPD 在專家模型進行強化學習的過程中即引入蒸餾機制,並讓專家模型互為導師進行雙向學習,促使各模型在訓練階段便能協同演化,維持一致的行為模式並保留互補知識。
Results
實驗結果證實,CoPD 成功將文字、圖像與影片推理能力整合於單一模型中。其效能不僅顯著優於混合 RLVR 與多專家政策蒸餾(MOPD)等強力基準模型,在多項指標上甚至超越了專精於單一領域的專家模型,展現出極強的整合與推理能力。
Significance
這項研究為大規模模型訓練提供了全新的擴展典範。透過模型間的同步協同演化而非單向知識傳遞,不僅大幅提升了多工整合的品質,也為開發通用人工智慧所需的複雜跨模態推理能力開闢了新的技術路徑。