Problem

目前評估視覺語言模型(VLM)在醫療影像的表現時,過度簡化臨床現實,僅依賴人工預選的 2D 影像。這忽略了真實診斷的核心挑戰:臨床 AI 代理必須具備在 3D 體積、多序列或多模態影像中主動導航、搜尋證據並整合資訊的能力,才能支持最終的醫療決策。

Method

研究團隊開發了可稽核的執行環境 MedOpenClaw,讓 VLM 能夠在 3D Slicer 等標準醫療檢視器中動態操作。此外,同步推出 MedFlowBench 基準測試,涵蓋腦部 MRI 與肺部 CT/PET 等完整研究案例,從檢視器操作、工具使用到開放方法等維度,系統性評估 AI 代理的臨床能力。

Results

初步測試顯示,雖然頂尖的大型語言與視覺模型(如 Gemini 3.1 Pro 與 GPT-5.4)能成功操作檢視器完成基礎研究任務,但一旦獲得專業工具的使用權限,其表現反而會因為缺乏精確的空間定位(spatial grounding)能力而矛盾地下降。

Significance

MedOpenClaw 彌補了靜態影像感知與互動式臨床工作流之間的鴻溝。這項研究為開發具備透明度、可重現性,且能處理全研究量體(full-study)的醫療影像 AI 代理奠定了關鍵技術基礎,有助於推動更符合現實醫療需求的自動化診斷技術發展。