透過反向自我蒸餾 (AntiSD) 突破推理瓶頸：讓語言模型在數學任務中達成高效自我演化

本研究揭示了傳統自我蒸餾在推理任務中的失效原因，並提出「反向自我蒸餾」（AntiSD）方法，透過調整權重訊號，顯著提升模型在數學推理基準上的訓練效率與最終準確度。

Problem

傳統的同向自我蒸餾（On-policy self-distillation）在數學推理任務中效果不彰。透過逐點互資訊（PMI）分析發現，特權資訊（如驗證過的解答）會讓模型過度關注結構性連接詞，卻削弱了對推理過程至關重要的「思維標記」（如 Wait, Let, Maybe），導致多步搜尋能力下降。

Method

提出「反向自我蒸餾」（AntiSD）技術，其核心在於擴大師生模型之間的散度（Divergence）而非縮小它。此方法反轉了每個標記（Token）的訊號正負號，產生自然受限的優勢值。此外，設計了熵觸發閘道（Entropy-triggered gate），當教師模型熵值崩潰時會自動關閉該項，成為一種可直接替換現有框架的模組。

Results

在 4B 到 30B 參數的多個模型測試中，AntiSD 僅需原先 GRPO 基準 1/2 到 1/10 的訓練步數即可達成相同準確率，並在最終數學基準測試中將準確率提升了最高 11.5 個百分點。

Significance

本研究開闢了可擴展的自我提升路徑。模型不再完全依賴更強大的外部老師，而是能透過自身的訓練訊號進行有效的推理引導，對於提升語言模型的邏輯思維與自主演化能力具有重大意義。