Problem
大型語言模型在強化學習(RLVR)中常面臨獎勵稀疏與歸因困難的挑戰。傳統方法難以有效利用失敗的生成過程,導致模型無法從錯誤中學習,優化訊號模糊且訓練效率低下,浪費了失敗軌跡中蘊含的有用資訊。
Method
提出「校正導向策略優化」(CIPO),這是一種針對 RLVR 的簡約擴展。CIPO 無須依賴外部訊號,能將模型自身的失敗軌跡自動轉化為校正導向的監督資訊。藉由聯合優化模型自身的錯誤修正樣本與標準強化學習目標,明確增強模型修正錯誤的能力。
Results
在涵蓋數學推理與程式碼生成的 11 項基準測試中,CIPO 在推理與校正表現上均顯著優於強大的基準模型。研究發現,CIPO 在 pass@K 指標上有更強的增長,這表明它提升了模型的內在推理能力,而非僅是重新分配現有正確答案的機率分布。
Significance
此研究證明了「失敗經驗」在自我改進中的關鍵價值,為提升 AI 邏輯思維與自省能力提供了一種高效且不需額外標註資料的路徑。這對於開發更具強韌性、能透過嘗試與錯誤自行進化的智慧代理人具有深遠的參考意義。