從失敗中學習：以校正為導向的策略優化提升大型語言模型的邏輯推理與自我修正能力

本研究提出 CIPO 框架，將強化學習中的失敗軌跡轉化為校正訊號。透過同步優化標準獎勵與錯誤修正路徑，在不依賴外部資料的情況下，顯著提升模型於數學與程式開發的推理品質。

Problem

大型語言模型在強化學習（RLVR）中常面臨獎勵稀疏與歸因困難的挑戰。傳統方法難以有效利用失敗的生成過程，導致模型無法從錯誤中學習，優化訊號模糊且訓練效率低下，浪費了失敗軌跡中蘊含的有用資訊。

提出「校正導向策略優化」（CIPO），這是一種針對 RLVR 的簡約擴展。CIPO 無須依賴外部訊號，能將模型自身的失敗軌跡自動轉化為校正導向的監督資訊。藉由聯合優化模型自身的錯誤修正樣本與標準強化學習目標，明確增強模型修正錯誤的能力。

在涵蓋數學推理與程式碼生成的 11 項基準測試中，CIPO 在推理與校正表現上均顯著優於強大的基準模型。研究發現，CIPO 在 pass@K 指標上有更強的增長，這表明它提升了模型的內在推理能力，而非僅是重新分配現有正確答案的機率分布。

此研究證明了「失敗經驗」在自我改進中的關鍵價值，為提升 AI 邏輯思維與自省能力提供了一種高效且不需額外標註資料的路徑。這對於開發更具強韌性、能透過嘗試與錯誤自行進化的智慧代理人具有深遠的參考意義。