Problem

擴散大語言模型(dLLMs)雖然具備平行解碼與雙向上下文的優勢,但通常需要龐大的參數規模才能達到競爭性能。現有的蒸餾方法主要集中於減少單一架構內的推理步數,尚未能解決當教師模型與學生模型在架構、注意力機制及分詞器(tokenizer)完全不同時,如何進行有效知識轉移的挑戰。

Method

研究團隊開發了 TIDE 框架,這是首個針對擴散大語言模型的跨架構蒸餾方案,包含三個模組:(1) TIDAL:根據訓練進度與雜訊時間步動態調節蒸餾強度;(2) CompDemo:透過互補掩碼分割強化教師模型的上下文,提升重度遮蔽下的預測準確度;(3) Reverse CALM:一種跨分詞器目標函數,透過反轉區塊級概似匹配,提供穩定的梯度與雙端雜訊過濾。

Results

實驗透過兩條異質流水線,將 8B 稠密模型與 16B MoE 模型蒸餾至 0.6B 的學生模型中。結果顯示 TIDE 在八項基準測試中平均超越基準線 1.53 分;在程式碼生成任務(HumanEval)中,得分從傳統自回歸基準的 32.3 大幅提升至 48.78,展現了顯著的效能增長。

Significance

這項研究填補了擴散模型在跨架構知識轉移上的技術空白。它證明了即便是極小規模的擴散大語言模型,在透過正確的蒸餾機制獲取大型模型知識後,也能在複雜任務中展現強大競爭力,為邊緣裝置部署高效能語言模型提供了新的可行性。