Problem
自迴歸語言模型的 Transformer 層級運算存在嚴重的循序依賴,傳統張量或管線平行化技術無法消除此類延遲瓶頸。儘管將隱藏狀態視為非線性方程求解是一個潛在方向,但直接套用固定點迭代在既有模型上並不穩定,且精確的牛頓修正法運算成本過高,難以在推論階段實踐。
Method
提出「結構化牛頓層平行化」(SNLP)框架,將層級運算視為求解殘差方程。該方法利用架構誘導的代理動力學取代昂貴的雅可比矩陣,在殘差 Transformer 中簡化為前綴和形式的 Identity Newton (IDN),在 mHC 架構則使用混和矩陣。此外,引入 SNLP 感知正規化,訓練模型使其在少數幾次迭代內即可精確逼近循序運算的結果。
Results
實驗顯示,SNLP 正規化能有效提升模型性能,使基準困惑度(PPL)降低 4.7% 至 23.4%。在 0.5B 參數的 Nanochat 模型上,結合層融合與區塊分解技術,成功在推論時達成 2.3 倍的實質加速,且 PPL 仍比原始循序模型改善了 6.1%。
Significance
這項研究證明層平行推論不只是數值上的近似,更能作為一種有益的求解器誘導偏誤(solver-induced inference bias)。這為打破大型語言模型的延遲瓶頸提供了新途徑,顯示透過訓練與推論演算法的協同設計,可以同時獲得更高的運算效率與更強的模型表現。