賦予語言模型自主進化技能：ARISE 階層式強化學習架構大幅提升數學推理能力

針對語言模型推理缺乏重用策略的問題，ARISE 框架結合階層式強化學習與內在技能庫演化，讓模型在訓練中累積策略，顯著提升複雜數學任務的表現。

Problem

目前的強化學習方法在提升語言模型數學推理能力時，多將各個問題實例視為獨立事件處理，未能有效利用訓練過程中產生的解題策略。這種做法導致模型無法像人類一樣，從成功的經驗中提取、累積並重複使用具備泛化能力的技能。

本研究提出 ARISE 框架，採用階層式強化學習（HRL）架構，由共享策略同時擔任「技能管理員」與「執行員」。管理員透過對成功解題路徑進行結構化摘要，動態維護一個分層技能庫，並在解題前檢索相關技能；執行員則根據選定技能生成具體解答。此外，設計了階層式獎勵機制，以確保推理能力與技能庫品質能協同演化。

在兩款基礎模型與七項基準測試（包含競賽數學與 Omni-MATH）的實驗中，ARISE 表現一致優於 GRPO 系列演算法及記憶增強基準模型。特別在分布外（OOD）任務中進步最為顯著。消融實驗進一步證實，技能庫的品質與模型的推理表現會隨著訓練過程同步提升。

這項研究突破了現有強化學習框架的限制，證明了透過內在技能的動態演化與階層式管理，語言模型能有效遷移解題策略。這為開發具備自我進化能力、能應對複雜且未知挑戰的通用推理代理程式提供了新的發展方向。