Problem
在對大型語言模型進行同策略蒸餾(On-policy distillation)時,開發者常透過調高獎勵外推係數(lambda)來追求超越教師模型的表現。然而,一旦係數超過特定臨界點,模型生成結構化輸出(如 JSON)的能力會突然崩潰,這種現象被稱為「外推懸崖」,過去缺乏精確的數學解釋與預測方法。
Method
研究團隊採用單位置伯努利簡約法(Bernoulli reduction),推導出一個閉式(closed-form)的安全性閾值公式 lambda*(p,b,c)。該公式由三個關鍵指標決定:教師模型的模態機率、暖啟動質量,以及重要性採樣的裁切(clip)強度。研究進一步將此規則擴展至 K 類 JSON 列表任務,並在 Amazon Fashion 資料集上進行驗證。
Results
實驗結果顯示,「外推懸崖」發生的位置與理論預測高度吻合。在低於臨界點的區域運行 ListOPD,能使參數僅 1.7B 的 Qwen3 學生模型,在特定領域的表現追平參數規模達五倍之多的 8B-SFT 基準模型。研究發現,效能增長主要來自於格式遵循能力的提升,而非語意內容的改變。
Significance
這項研究為 LLM 的後訓練過程提供了重要的理論指導,讓開發者不再需要透過昂貴的試錯法來尋找最佳超參數。藉由精準掌握「外推懸崖」的邊界,能在不破壞結構化格式的前提下,將輕量化模型的效能推向極致,對於邊緣端部署與模型壓縮具有實務價值。