Problem
現有的大型語言模型代理多依賴基於相似度檢索的外部記憶,但這類靜態資訊往往與當前動態語境不符,導致代理在處理複雜任務時,難以獲得真正有助於決策的即時指引。
Method
提出 Mem-π 框架,改用獨立的語言或視覺語言模型作為生成式記憶模組。該模型能根據當前語境動態判斷「何時」該產生指引以及「指引內容」,並透過決策與內容解構的強化學習(RL)目標進行訓練,確保在非必要時保持沉默,必要時則產出精簡有用的建議。
Results
在網頁導航、終端工具使用及文字實體互動等多樣化的基準測試中,Mem-π 的表現一致優於檢索式與傳統 RL 優化的記憶模型,尤其在網頁導航任務上實現了超過 30% 的相對成長。
Significance
這項研究證明了「生成式記憶」在適應性與精準度上優於傳統檢索機制,為開發能處理複雜長程任務的自主代理提供了全新的技術路徑,並有效降低了冗餘資訊對模型決策的干擾。