Problem
線性注意力模型(LA)雖然能降低計算複雜度,但目前的線上隨機梯度下降(SGD)更新機制存在資訊衰減快且收斂效果不佳的問題。然而,將傳統動量優化器直接整合進線性遞迴時,難以在訓練效率與模型效能之間取得平衡。
Method
提出 Momentum DeltaNet (MDN),透過幾何重排更新係數,開發出適用於線性注意力的分塊平行演算法。此外,從動力系統視角將動量遞迴分析為具有共軛複數特徵值的二階系統,藉此設計穩定的門控約束,並利用 Triton 核心實現高效訓練。
Results
在 400M 與 1.3B 參數規模的實驗中,MDN 在多項下游基準測試表現均一致優於 Transformer、Mamba2 與 GDN。同時,MDN 的訓練吞吐量與 Mamba2 及 KDA 等頂尖線性模型相當,展現了極佳的擴展潛力。
Significance
成功克服了動量機制在線性遞迴中難以平行化的技術瓶頸,為大型語言模型提供了一種兼具訓練效率與長序列建模能力的新架構,並證明了二階優化動力學在線性注意力優化中的關鍵價值。