Problem

標準的注意力殘差(Attention Residuals)模型在處理深層網路時,會因為過度關注累積的冗餘隱藏狀態,導致「路由崩潰」(routing collapse)。這使得注意力權重趨於均勻且缺乏對比度(最大權重僅約 0.2),嚴重限制了模型從先前層級篩選關鍵資訊的能力。

Method

提出「Delta Attention Residuals」機制,將關注對象從傳統的累積狀態改為各子層產生的「變化量」(delta,即 v_i = h_{i+1} - h_i)。這種表示法具備高度的結構多樣性,能產生更高對比度的注意力分布(最大權重提升至約 0.6),從而實現更精確且有效的跨層資訊路由。

Results

在 220M 到 7.6B 參數規模的實驗中,該方法一致優於標準殘差與注意力殘差模型,驗證集困惑度(Perplexity)提升了 1.7% 至 8.2%。此外,該技術支援將現有的預訓練檢查點(checkpoints)透過標準微調流程轉換為 Delta Attention Residuals 架構。

Significance

此研究重新定義了殘差連接中資訊路由的核心對象,有效克服了深層架構中的表示冗餘問題。這為提升大語言模型(LLM)的訓練效率與推理表現提供了一種具備高度可擴展性且易於整合的新途徑。