提升大語言模型長期記憶：跨異質任務的自我演化記憶擷取技術與 BEHEMOTH 基準測試

本研究針對大語言模型在不同任務中記憶需求不一的挑戰，提出 BEHEMOTH 基準測試與 CluE 演化策略，透過分群優化顯著提升模型在異質任務中的記憶擷取效能。

Problem

大型語言模型助理在處理個人化、問題解決及代理任務時，需要從過去對話中保留關鍵資訊。然而，不同任務所需的記憶類型存在顯著差異，導致單一靜態提示詞無法適用於所有情境，且現有的自我演化提示詞優化框架在面對「異質任務」時往往會出現效能退化現象。

研究團隊首先建立 BEHEMOTH 基準測試，整合 18 個涵蓋個人化與問題解決的資料集，並採用下游效用驅動指標進行評估。接著提出 CluE（基於分群的演化策略），將訓練範例按記憶擷取情境進行分群並獨立分析，最後合成跨群組的洞見來更新擷取提示詞。

實驗結果顯示，CluE 在 BEHEMOTH 基準測試中展現出強大的泛化能力，在異質任務上取得了 9.04% 的相對效能提升。與現有的自我演化框架相比，CluE 在各種任務類別中均表現出更穩定且優異的記憶擷取效果。

這項研究為建立具備長期記憶與個人化能力的 AI 助理提供了關鍵技術。透過解決異質任務中的提示詞優化難題，CluE 讓 LLM 能夠更精準地從海量對話中過濾並保留真正有價值的資訊，推動了持久型 AI 應用的發展。