Problem
現有的微粒度稀疏注意力機制(如 DeepSeek Sparse Attention)雖能有效挑選關鍵標記,但其索引器在處理長文本時,仍需對所有歷史標記進行掃描,導致每層運算產生 $O(L^2)$ 的複雜度瓶頸,嚴重阻礙長文本推理的擴展性。
Method
提出 HISA(分層索引稀疏注意力)作為索引器的即插即用替代方案。該技術將掃描過程分為兩階段:首先透過「區塊級粗篩」過濾無關區域,再進行「標記級精細挑選」,僅在候選區塊內套用原始索引器,且無需任何額外微調或訓練即可直接套用至現有模型。
Results
在 32K 與 128K 上下文長度下,HISA 分別實現 2 倍與 4 倍的內核級加速。於 DeepSeek-V3.2 測試中,HISA 產生的標記選擇集合與原始 DSA 的平均 IoU 超過 99%,在長文本基準測試中展現出與原模型幾乎一致的高品質表現。
Significance
這項研究成功解決了微粒度稀疏注意力在長序列下的效率難題,不僅顯著提升推理效能,更證明了分層結構能在維持精確標記選擇的同時,大幅降低運算負擔,為超長文本大語言模型的佈署提供關鍵技術支持。