Problem

現有的線上蒸餾(On-policy distillation)在處理多輪任務時,會因為錯誤隨步數累積,導致「軌跡級 KL 不穩定」現象。這使得學生模型在訓練過程中偏離老師模型的有效支援範圍,造成 KL 散度上升、成功率下降,導致訓練難以收斂且監督訊號變得不可靠。

Method

研究團隊開發了 TCOD(時序課程線上蒸餾)框架。該框架採用課程學習策略,精確控制學生模型接觸到的任務軌跡深度,從短距離軌跡開始訓練,並隨進度逐步擴展至長距離軌跡,藉此建立穩健的學習曲線並確保蒸餾過程的穩定性。

Results

在 ALFWorld、WebShop 與 ScienceWorld 三項多輪智能體評測中,TCOD 成功緩解了 KL 散度飆升問題,效能較傳統 OPD 提升達 18 個百分點。實驗數據顯示,經過 TCOD 訓練的學生模型甚至能超越老師模型的表現,並在老師失敗的任務上展現更強的泛化能力。

Significance

本研究為模型小型化與推理能力轉移提供了關鍵技術路徑。藉由解決多輪決策環境中的誤差累積與訓練不穩定問題,TCOD 證明了即使是較小的模型,也能在複雜的自主任務中透過優化的訓練機制,展現出超越大型模型性能的潛力。