Problem

目前的強化學習方法在提升語言模型數學推理能力時,多將各個問題實例視為獨立事件處理,未能有效利用訓練過程中產生的解題策略。這種做法導致模型無法像人類一樣,從成功的經驗中提取、累積並重複使用具備泛化能力的技能。

Method

本研究提出 ARISE 框架,採用階層式強化學習(HRL)架構,由共享策略同時擔任「技能管理員」與「執行員」。管理員透過對成功解題路徑進行結構化摘要,動態維護一個分層技能庫,並在解題前檢索相關技能;執行員則根據選定技能生成具體解答。此外,設計了階層式獎勵機制,以確保推理能力與技能庫品質能協同演化。

Results

在兩款基礎模型與七項基準測試(包含競賽數學與 Omni-MATH)的實驗中,ARISE 表現一致優於 GRPO 系列演算法及記憶增強基準模型。特別在分布外(OOD)任務中進步最為顯著。消融實驗進一步證實,技能庫的品質與模型的推理表現會隨著訓練過程同步提升。

Significance

這項研究突破了現有強化學習框架的限制,證明了透過內在技能的動態演化與階層式管理,語言模型能有效遷移解題策略。這為開發具備自我進化能力、能應對複雜且未知挑戰的通用推理代理程式提供了新的發展方向。