Mem-π：讓 LLM 代理學會自主生成記憶，透過動態決策引導機制大幅提升任務達成率

Mem-π 拋棄傳統的檢索式記憶，改以獨立模型在關鍵時刻生成精確指引。透過強化學習優化決策，顯著提升代理在網頁導航與工具使用等複雜任務的表現。

Problem

現有的大型語言模型代理多依賴基於相似度檢索的外部記憶，但這類靜態資訊往往與當前動態語境不符，導致代理在處理複雜任務時，難以獲得真正有助於決策的即時指引。

提出 Mem-π 框架，改用獨立的語言或視覺語言模型作為生成式記憶模組。該模型能根據當前語境動態判斷「何時」該產生指引以及「指引內容」，並透過決策與內容解構的強化學習（RL）目標進行訓練，確保在非必要時保持沉默，必要時則產出精簡有用的建議。

在網頁導航、終端工具使用及文字實體互動等多樣化的基準測試中，Mem-π 的表現一致優於檢索式與傳統 RL 優化的記憶模型，尤其在網頁導航任務上實現了超過 30% 的相對成長。

這項研究證明了「生成式記憶」在適應性與精準度上優於傳統檢索機制，為開發能處理複雜長程任務的自主代理提供了全新的技術路徑，並有效降低了冗餘資訊對模型決策的干擾。