突破 Transformer 循序限制：SNLP 結構化牛頓法實現超高速層平行推論

本研究提出 SNLP 框架，透過結構化牛頓修正將 Transformer 的循序運算轉化為可平行處理的非線性方程組。結合特定正規化技術，在大幅提升推論速度的同時，甚至能改善模型的預測精準度。

Problem

自迴歸語言模型的 Transformer 層級運算存在嚴重的循序依賴，傳統張量或管線平行化技術無法消除此類延遲瓶頸。儘管將隱藏狀態視為非線性方程求解是一個潛在方向，但直接套用固定點迭代在既有模型上並不穩定，且精確的牛頓修正法運算成本過高，難以在推論階段實踐。

Method

提出「結構化牛頓層平行化」（SNLP）框架，將層級運算視為求解殘差方程。該方法利用架構誘導的代理動力學取代昂貴的雅可比矩陣，在殘差 Transformer 中簡化為前綴和形式的 Identity Newton (IDN)，在 mHC 架構則使用混和矩陣。此外，引入 SNLP 感知正規化，訓練模型使其在少數幾次迭代內即可精確逼近循序運算的結果。

Results

實驗顯示，SNLP 正規化能有效提升模型性能，使基準困惑度（PPL）降低 4.7% 至 23.4%。在 0.5B 參數的 Nanochat 模型上，結合層融合與區塊分解技術，成功在推論時達成 2.3 倍的實質加速，且 PPL 仍比原始循序模型改善了 6.1%。

Significance

這項研究證明層平行推論不只是數值上的近似，更能作為一種有益的求解器誘導偏誤（solver-induced inference bias）。這為打破大型語言模型的延遲瓶頸提供了新途徑，顯示透過訓練與推論演算法的協同設計，可以同時獲得更高的運算效率與更強的模型表現。