Problem

目前的醫療 AI 代理人在處理多輪臨床推理(如詢問病史、開立檢驗)時,面臨強化學習獎勵過於稀疏的問題。這導致模型傾向產生冗長但無意義的單輪對話,而非有效的工具調用,且現有方法如 GRPO 經常出現訓練不穩定、回覆長度劇烈震盪與收斂緩慢等困境。

Method

研究團隊開發了 Healthcare AI GYM 訓練環境,涵蓋 10 個臨床領域、135 種工具與 3600 多個任務。同時提出「回合級截斷在線蒸餾」(TT-OPD)框架,利用無梯度的 EMA 老師模型結合結果特權資訊,在對話的每一回合提供密集的 KL 正則化,引導模型進行更精確的決策。

Results

實驗顯示 TT-OPD 在 18 個基準測試中的 10 個項目均達到最優性能,較非強化學習基準平均提升 3.9 個百分點。該方法不僅顯著加速早期收斂,更能有效控制回覆長度,並在複雜的多輪對話情境中維持穩定的工具調用能力,克服了傳統強化學習的崩潰現象。

Significance

這項研究為醫療 AI 代理人的訓練提供了標準化且資源豐富的開源環境,並透過 TT-OPD 技術解決了多輪對話中獎勵失調的核心技術難題,為開發能於真實醫療情境中進行精準推理、具備高度泛化能力的通用型醫療 AI 奠定重要基礎。