MDN：透過階梯式動量平行化技術，顯著提升線性注意力模型在長序列處理的優化效率與效能

本研究提出 Momentum DeltaNet (MDN)，開發分塊平行演算法將階梯式動量引入線性注意力，解決傳統 SGD 更新導致的資訊衰減與收斂不佳，並在多項基準測試中超越 Transformer 與 Mamba2。

Problem

線性注意力模型（LA）雖然能降低計算複雜度，但目前的線上隨機梯度下降（SGD）更新機制存在資訊衰減快且收斂效果不佳的問題。然而，將傳統動量優化器直接整合進線性遞迴時，難以在訓練效率與模型效能之間取得平衡。

提出 Momentum DeltaNet (MDN)，透過幾何重排更新係數，開發出適用於線性注意力的分塊平行演算法。此外，從動力系統視角將動量遞迴分析為具有共軛複數特徵值的二階系統，藉此設計穩定的門控約束，並利用 Triton 核心實現高效訓練。

在 400M 與 1.3B 參數規模的實驗中，MDN 在多項下游基準測試表現均一致優於 Transformer、Mamba2 與 GDN。同時，MDN 的訓練吞吐量與 Mamba2 及 KDA 等頂尖線性模型相當，展現了極佳的擴展潛力。

成功克服了動量機制在線性遞迴中難以平行化的技術瓶頸，為大型語言模型提供了一種兼具訓練效率與長序列建模能力的新架構，並證明了二階優化動力學在線性注意力優化中的關鍵價值。