打造醫療 AI 健身房：運用 TT-OPD 框架解決強化學習不穩定性，強化多輪臨床推理能力

本研究推出 Healthcare AI GYM 環境與 TT-OPD 框架，解決醫療 AI 在強化學習中常見的長度爆炸與工具失靈問題，顯著提升臨床推理的訓練效率與準確性。

Problem

目前的醫療 AI 代理人在處理多輪臨床推理（如詢問病史、開立檢驗）時，面臨強化學習獎勵過於稀疏的問題。這導致模型傾向產生冗長但無意義的單輪對話，而非有效的工具調用，且現有方法如 GRPO 經常出現訓練不穩定、回覆長度劇烈震盪與收斂緩慢等困境。

研究團隊開發了 Healthcare AI GYM 訓練環境，涵蓋 10 個臨床領域、135 種工具與 3600 多個任務。同時提出「回合級截斷在線蒸餾」（TT-OPD）框架，利用無梯度的 EMA 老師模型結合結果特權資訊，在對話的每一回合提供密集的 KL 正則化，引導模型進行更精確的決策。

實驗顯示 TT-OPD 在 18 個基準測試中的 10 個項目均達到最優性能，較非強化學習基準平均提升 3.9 個百分點。該方法不僅顯著加速早期收斂，更能有效控制回覆長度，並在複雜的多輪對話情境中維持穩定的工具調用能力，克服了傳統強化學習的崩潰現象。

這項研究為醫療 AI 代理人的訓練提供了標準化且資源豐富的開源環境，並透過 TT-OPD 技術解決了多輪對話中獎勵失調的核心技術難題，為開發能於真實醫療情境中進行精準推理、具備高度泛化能力的通用型醫療 AI 奠定重要基礎。