超越自回歸架構：MDM-Prime-v2 透過二進制編碼與索引洗牌實現擴散語言模型之高效擴展

本研究推出 MDM-Prime-v2，藉由二進制編碼與索引洗牌技術克服子標記化限制，使擴散語言模型在運算效率與困惑度表現上大幅超越傳統自回歸模型。

Problem

目前的遮罩擴散模型（MDM）雖具備泛化優勢，但其 Prime 方案面臨兩大瓶頸：首先是缺乏引導子標記器（subtokenizer）粒度超參數選擇的工具；其次是現有的子標記器形式與常用 BPE 標記器結合時，會導致模型概似估計（likelihood estimation）顯著下降，影響模型精確度。

Method

研究團隊深入探討 MDM-Prime 的變分界限（variational bound）緊密度，據此研發出 MDM-Prime-v2。該架構核心整合了二進制編碼（Binary Encoding）與索引洗牌（Index Shuffling）技術，重新建構子標記層級的擴散過程，並提供更精確的超參數配置策略。

Results

擴展性分析證實 MDM-Prime-v2 的運算效率較自回歸模型（ARM）高出 21.8 倍。在 OpenWebText 資料集的運算最佳化評測中，本模型取得 7.77 的困惑度（Perplexity），遠優於 ARM 的 12.99 與前代 MDM 的 18.94。當模型規模擴展至 11 億參數時，在多項常識推理任務中更展現出卓越的零樣本（zero-shot）準確率。

Significance

此研究證明了擴散語言模型在運算最佳化擴展上具有超越自回歸模型的潛力，打破了非自回歸架構在效能與效率上的傳統困境，為開發新一代高效能語言生成模型提供了關鍵的技術路徑與理論支撐。