克服多輪自主智能體蒸餾難題：TCOD 框架透過時序課程學習提升訓練穩定性與效能

針對多輪任務中線上蒸餾常遇到的 KL 不穩定問題，本研究提出 TCOD 框架，透過由短至長的軌跡深度課程學習，顯著提升小型模型在複雜決策環境中的表現與穩定性。

Problem

現有的線上蒸餾（On-policy distillation）在處理多輪任務時，會因為錯誤隨步數累積，導致「軌跡級 KL 不穩定」現象。這使得學生模型在訓練過程中偏離老師模型的有效支援範圍，造成 KL 散度上升、成功率下降，導致訓練難以收斂且監督訊號變得不可靠。

研究團隊開發了 TCOD（時序課程線上蒸餾）框架。該框架採用課程學習策略，精確控制學生模型接觸到的任務軌跡深度，從短距離軌跡開始訓練，並隨進度逐步擴展至長距離軌跡，藉此建立穩健的學習曲線並確保蒸餾過程的穩定性。

在 ALFWorld、WebShop 與 ScienceWorld 三項多輪智能體評測中，TCOD 成功緩解了 KL 散度飆升問題，效能較傳統 OPD 提升達 18 個百分點。實驗數據顯示，經過 TCOD 訓練的學生模型甚至能超越老師模型的表現，並在老師失敗的任務上展現更強的泛化能力。

本研究為模型小型化與推理能力轉移提供了關鍵技術路徑。藉由解決多輪決策環境中的誤差累積與訓練不穩定問題，TCOD 證明了即使是較小的模型，也能在複雜的自主任務中透過優化的訓練機制，展現出超越大型模型性能的潛力。