Problem
現有大語言模型(LLM)代理人多依賴人類手寫設計,且難以在不重訓模型參數的情況下,從經驗中動態學習並累積知識,導致跨任務適應力受限且難以持續自主進步。
Method
採用基於記憶的強化學習框架,結合「狀態化提示詞」與以 Markdown 存儲的技能庫。透過「讀寫反思學習」機制,系統能依當前狀態從技能路由選擇合適技能,並根據新經驗更新或擴充外部技能庫,將知識外置化以實現持續演進。
Results
在 General AI Assistants 基準測試中,該系統的總體準確率相對提升了 26.2%;於挑戰性極高的 Humanity's Last Exam 表現更大幅躍升 116.2%,顯著證明了系統透過疊代生成與精煉技能來自我強化的效能。
Significance
本研究展示了「代理人設計代理人」的全新範式,將學習過程與模型參數解耦,為開發具備自我進化能力、能應對複雜開放式任務的通用型 AI 代理人提供了高效且具備高度擴展性的技術路徑。