HISA：透過分層索引加速 DeepSeek 稀疏注意力機制，突破長文本運算瓶頸

本研究提出 HISA 分層索引框架，將權重掃描優化為兩階段過濾，大幅提升長文本稀疏注意力運算速度，在不影響精確度與無需重新訓練的情況下，實現 4 倍速效能飛躍。

Problem

現有的微粒度稀疏注意力機制（如 DeepSeek Sparse Attention）雖能有效挑選關鍵標記，但其索引器在處理長文本時，仍需對所有歷史標記進行掃描，導致每層運算產生 $O(L^2)$ 的複雜度瓶頸，嚴重阻礙長文本推理的擴展性。

提出 HISA（分層索引稀疏注意力）作為索引器的即插即用替代方案。該技術將掃描過程分為兩階段：首先透過「區塊級粗篩」過濾無關區域，再進行「標記級精細挑選」，僅在候選區塊內套用原始索引器，且無需任何額外微調或訓練即可直接套用至現有模型。

在 32K 與 128K 上下文長度下，HISA 分別實現 2 倍與 4 倍的內核級加速。於 DeepSeek-V3.2 測試中，HISA 產生的標記選擇集合與原始 DSA 的平均 IoU 超過 99%，在長文本基準測試中展現出與原模型幾乎一致的高品質表現。

這項研究成功解決了微粒度稀疏注意力在長序列下的效率難題，不僅顯著提升推理效能，更證明了分層結構能在維持精確標記選擇的同時，大幅降低運算負擔，為超長文本大語言模型的佈署提供關鍵技術支持。