Skill1：透過強化學習實現技能增強代理程式的統一演化，大幅提升自動化任務處理效率

本研究提出 Skill1 框架，透過單一政策統一管理技能選擇、應用與提煉，利用單一任務結果信號驅動技能庫的協同演化，有效解決現有方法在技能管理上的不一致問題。

Problem

目前大型語言模型代理程式在維護技能庫時，通常將技能選擇、執行與提煉視為獨立程序進行優化。這種分離的做法容易導致各能力間的優化目標不一致或產生衝突，使得代理程式難以達成系統性的協同演化與有效的策略重用。

提出 Skill1 框架，訓練單一政策來處理技能搜尋、排序、任務執行與新技能提煉。該方法僅依賴單一的任務結果信號，利用其低頻趨勢來評估技能選擇的準確性，並透過其高頻變化來引導新技能的提煉，確保所有功能皆朝向一致的任務目標優化。

在 ALFWorld 與 WebShop 等標準基準測試中，Skill1 的表現顯著優於現有的強化學習與技能導向模型。實驗動態證實了技能選擇、利用與提煉三項能力具備高度的協同演化特性，且消融實驗顯示移除任何一項信用分配信號都會損害系統的演化效率。

此研究證明了採用統一目標函數來驅動技能庫演化的可行性，為開發具備高度自主學習與知識累積能力的 AI 代理程式提供了新路徑，使其能更精準地在複雜任務中累積並運用成功策略。