Problem

傳統的同向自我蒸餾(On-policy self-distillation)在數學推理任務中效果不彰。透過逐點互資訊(PMI)分析發現,特權資訊(如驗證過的解答)會讓模型過度關注結構性連接詞,卻削弱了對推理過程至關重要的「思維標記」(如 Wait, Let, Maybe),導致多步搜尋能力下降。

Method

提出「反向自我蒸餾」(AntiSD)技術,其核心在於擴大師生模型之間的散度(Divergence)而非縮小它。此方法反轉了每個標記(Token)的訊號正負號,產生自然受限的優勢值。此外,設計了熵觸發閘道(Entropy-triggered gate),當教師模型熵值崩潰時會自動關閉該項,成為一種可直接替換現有框架的模組。

Results

在 4B 到 30B 參數的多個模型測試中,AntiSD 僅需原先 GRPO 基準 1/2 到 1/10 的訓練步數即可達成相同準確率,並在最終數學基準測試中將準確率提升了最高 11.5 個百分點。

Significance

本研究開闢了可擴展的自我提升路徑。模型不再完全依賴更強大的外部老師,而是能透過自身的訓練訊號進行有效的推理引導,對於提升語言模型的邏輯思維與自主演化能力具有重大意義。