MSA：具備 1 億 Token 擴展能力的記憶體稀疏注意力機制，實現高效端到端長文本推理

這篇論文提出 MSA 框架，透過可擴展稀疏注意力和文件層級 RoPE，克服大語言模型處理超長文本時的效能瓶頸，成功將記憶容量擴展至 1 億 Token 並維持極低衰減。

Problem

大語言模型（LLM）受限於全注意力機制的運算複雜度，上下文長度通常難以突破 100 萬 Token。現有的 RAG、RNN 或外部儲存方案，在面對超長文本時常面臨精度大幅下降、推論延遲激增、無法動態更新內容或缺乏端到端優化等瓶頸，阻礙了數位分身與大規模語料庫分析的應用。

Method

提出「記憶體稀疏注意力（MSA）」框架，核心技術包含端到端可訓練的擴展稀疏注意力，以及文件層級旋轉位置編碼（Document-wise RoPE）。此外，結合 KV 快取壓縮與記憶體並行（Memory Parallel）技術，並導入記憶體交錯（Memory Interleaving）機制，以強化在零散記憶片段中的多跳推理能力。

Results

MSA 實現了訓練與推論的線性複雜度，將上下文規模從 1.6 萬擴展至 1 億 Token 時，性能衰減低於 9%。實驗證實僅需兩片 A800 GPU 即可處理億級 Token 推論，且在長文本基準測試中顯著超越現有的前沿 LLM、RAG 系統及記憶體代理模型。

Significance

此研究成功將記憶容量與推理邏輯解耦，為通用型人工智慧提供具備「終身記憶」能力的基礎架構。這不僅解決了長歷史代理人推理的效率問題，更證明透過端到端優化，能使模型在極低硬體資源下，擁有處理海量資訊的內生記憶能力。