Problem
大型語言模型助理在處理個人化、問題解決及代理任務時,需要從過去對話中保留關鍵資訊。然而,不同任務所需的記憶類型存在顯著差異,導致單一靜態提示詞無法適用於所有情境,且現有的自我演化提示詞優化框架在面對「異質任務」時往往會出現效能退化現象。
Method
研究團隊首先建立 BEHEMOTH 基準測試,整合 18 個涵蓋個人化與問題解決的資料集,並採用下游效用驅動指標進行評估。接著提出 CluE(基於分群的演化策略),將訓練範例按記憶擷取情境進行分群並獨立分析,最後合成跨群組的洞見來更新擷取提示詞。
Results
實驗結果顯示,CluE 在 BEHEMOTH 基準測試中展現出強大的泛化能力,在異質任務上取得了 9.04% 的相對效能提升。與現有的自我演化框架相比,CluE 在各種任務類別中均表現出更穩定且優異的記憶擷取效果。
Significance
這項研究為建立具備長期記憶與個人化能力的 AI 助理提供了關鍵技術。透過解決異質任務中的提示詞優化難題,CluE 讓 LLM 能夠更精準地從海量對話中過濾並保留真正有價值的資訊,推動了持久型 AI 應用的發展。