Problem

大語言模型(LLM)受限於全注意力機制的運算複雜度,上下文長度通常難以突破 100 萬 Token。現有的 RAG、RNN 或外部儲存方案,在面對超長文本時常面臨精度大幅下降、推論延遲激增、無法動態更新內容或缺乏端到端優化等瓶頸,阻礙了數位分身與大規模語料庫分析的應用。

Method

提出「記憶體稀疏注意力(MSA)」框架,核心技術包含端到端可訓練的擴展稀疏注意力,以及文件層級旋轉位置編碼(Document-wise RoPE)。此外,結合 KV 快取壓縮與記憶體並行(Memory Parallel)技術,並導入記憶體交錯(Memory Interleaving)機制,以強化在零散記憶片段中的多跳推理能力。

Results

MSA 實現了訓練與推論的線性複雜度,將上下文規模從 1.6 萬擴展至 1 億 Token 時,性能衰減低於 9%。實驗證實僅需兩片 A800 GPU 即可處理億級 Token 推論,且在長文本基準測試中顯著超越現有的前沿 LLM、RAG 系統及記憶體代理模型。

Significance

此研究成功將記憶容量與推理邏輯解耦,為通用型人工智慧提供具備「終身記憶」能力的基礎架構。這不僅解決了長歷史代理人推理的效率問題,更證明透過端到端優化,能使模型在極低硬體資源下,擁有處理海量資訊的內生記憶能力。