破解 LLM 蒸餾中的「外推懸崖」：精準定位結構化輸出崩潰點與效能極大化

本研究揭示了同策略蒸餾中獎勵係數過高會導致格式崩潰的「外推懸崖」現象。透過推導出的精確閾值公式，能讓 1.7B 小模型在維持 JSON 格式的同時，達到 8B 模型等級的表現。

Problem

在對大型語言模型進行同策略蒸餾（On-policy distillation）時，開發者常透過調高獎勵外推係數（lambda）來追求超越教師模型的表現。然而，一旦係數超過特定臨界點，模型生成結構化輸出（如 JSON）的能力會突然崩潰，這種現象被稱為「外推懸崖」，過去缺乏精確的數學解釋與預測方法。

Method

研究團隊採用單位置伯努利簡約法（Bernoulli reduction），推導出一個閉式（closed-form）的安全性閾值公式 lambda*(p,b,c)。該公式由三個關鍵指標決定：教師模型的模態機率、暖啟動質量，以及重要性採樣的裁切（clip）強度。研究進一步將此規則擴展至 K 類 JSON 列表任務，並在 Amazon Fashion 資料集上進行驗證。

Results

實驗結果顯示，「外推懸崖」發生的位置與理論預測高度吻合。在低於臨界點的區域運行 ListOPD，能使參數僅 1.7B 的 Qwen3 學生模型，在特定領域的表現追平參數規模達五倍之多的 8B-SFT 基準模型。研究發現，效能增長主要來自於格式遵循能力的提升，而非語意內容的改變。

Significance

這項研究為 LLM 的後訓練過程提供了重要的理論指導，讓開發者不再需要透過昂貴的試錯法來尋找最佳超參數。藉由精準掌握「外推懸崖」的邊界，能在不破壞結構化格式的前提下，將輕量化模型的效能推向極致，對於邊緣端部署與模型壓縮具有實務價值。