翻轉 TIDE：首創跨架構擴散大語言模型蒸餾框架，大幅提升輕量化模型效能

本研究提出 TIDE 框架，首度解決擴散大語言模型在異質架構與分詞器間的蒸餾難題。透過三大核心模組，成功讓 0.6B 小模型在程式生成等任務上顯著超越傳統模型。

Problem

擴散大語言模型（dLLMs）雖然具備平行解碼與雙向上下文的優勢，但通常需要龐大的參數規模才能達到競爭性能。現有的蒸餾方法主要集中於減少單一架構內的推理步數，尚未能解決當教師模型與學生模型在架構、注意力機制及分詞器（tokenizer）完全不同時，如何進行有效知識轉移的挑戰。

Method

研究團隊開發了 TIDE 框架，這是首個針對擴散大語言模型的跨架構蒸餾方案，包含三個模組：(1) TIDAL：根據訓練進度與雜訊時間步動態調節蒸餾強度；(2) CompDemo：透過互補掩碼分割強化教師模型的上下文，提升重度遮蔽下的預測準確度；(3) Reverse CALM：一種跨分詞器目標函數，透過反轉區塊級概似匹配，提供穩定的梯度與雙端雜訊過濾。

Results

實驗透過兩條異質流水線，將 8B 稠密模型與 16B MoE 模型蒸餾至 0.6B 的學生模型中。結果顯示 TIDE 在八項基準測試中平均超越基準線 1.53 分；在程式碼生成任務（HumanEval）中，得分從傳統自回歸基準的 32.3 大幅提升至 48.78，展現了顯著的效能增長。

Significance

這項研究填補了擴散模型在跨架構知識轉移上的技術空白。它證明了即便是極小規模的擴散大語言模型，在透過正確的蒸餾機制獲取大型模型知識後，也能在複雜任務中展現強大競爭力，為邊緣裝置部署高效能語言模型提供了新的可行性。