Problem
目前大型語言模型代理程式在維護技能庫時,通常將技能選擇、執行與提煉視為獨立程序進行優化。這種分離的做法容易導致各能力間的優化目標不一致或產生衝突,使得代理程式難以達成系統性的協同演化與有效的策略重用。
Method
提出 Skill1 框架,訓練單一政策來處理技能搜尋、排序、任務執行與新技能提煉。該方法僅依賴單一的任務結果信號,利用其低頻趨勢來評估技能選擇的準確性,並透過其高頻變化來引導新技能的提煉,確保所有功能皆朝向一致的任務目標優化。
Results
在 ALFWorld 與 WebShop 等標準基準測試中,Skill1 的表現顯著優於現有的強化學習與技能導向模型。實驗動態證實了技能選擇、利用與提煉三項能力具備高度的協同演化特性,且消融實驗顯示移除任何一項信用分配信號都會損害系統的演化效率。
Significance
此研究證明了採用統一目標函數來驅動技能庫演化的可行性,為開發具備高度自主學習與知識累積能力的 AI 代理程式提供了新路徑,使其能更精準地在複雜任務中累積並運用成功策略。