Problem
現有的語言模型(LLM)在訓練與部署之間存在嚴格界線,一旦模型上線運作,學習過程便告終止。這種限制使 AI 難以像人類般從環境互動中持續累積經驗,導致模型在面對動態或特定領域的任務時,無法根據過去的成敗進行自我優化。
Method
本研究提出 CASCADE 框架,將部署階段正式定義為 LLM 生命週期的「部署時學習(DTL)」階段。該框架為代理人配備了可進化的外顯式情境記憶,並將經驗重用建模為情境強盜問題(Contextual Bandit Problem)。透過具備理論保證的探索與開發機制,模型能自主篩選並精煉任務相關案例,將過去經驗轉化為可執行的知識。
Results
在涵蓋醫療診斷、法律分析、程式碼生成、網頁搜索等 16 項跨領域任務的測試中,CASCADE 的宏觀平均成功率較零樣本提示(Zero-shot Prompting)提升了 20.9%。實驗結果證明,該方法在各類指標上均穩定優於基於梯度更新或傳統記憶機制的基準模型。
Significance
此研究為開發具備自我進化能力的 AI 系統奠定了重要基礎。藉由將部署轉化為主動學習過程,CASCADE 證明了 LLM 無需昂貴的模型微調,僅靠結構化的經驗累積就能在長期互動中不斷提升效能,有效填補了靜態模型與動態應用需求之間的鴻溝。