MedOpenClaw：引領醫療 AI 邁向全研究診斷，建立可稽核的 3D 影像自動化導航與推理框架

本研究開發 MedOpenClaw 運行環境與 MedFlowBench 基準測試，使 AI 代理能主動導航 3D 醫療影像與多序列資料，解決過去模型僅能處理單張靜態 2D 影像的臨床應用侷限。

Problem

目前評估視覺語言模型（VLM）在醫療影像的表現時，過度簡化臨床現實，僅依賴人工預選的 2D 影像。這忽略了真實診斷的核心挑戰：臨床 AI 代理必須具備在 3D 體積、多序列或多模態影像中主動導航、搜尋證據並整合資訊的能力，才能支持最終的醫療決策。

Method

研究團隊開發了可稽核的執行環境 MedOpenClaw，讓 VLM 能夠在 3D Slicer 等標準醫療檢視器中動態操作。此外，同步推出 MedFlowBench 基準測試，涵蓋腦部 MRI 與肺部 CT/PET 等完整研究案例，從檢視器操作、工具使用到開放方法等維度，系統性評估 AI 代理的臨床能力。

Results

初步測試顯示，雖然頂尖的大型語言與視覺模型（如 Gemini 3.1 Pro 與 GPT-5.4）能成功操作檢視器完成基礎研究任務，但一旦獲得專業工具的使用權限，其表現反而會因為缺乏精確的空間定位（spatial grounding）能力而矛盾地下降。

Significance

MedOpenClaw 彌補了靜態影像感知與互動式臨床工作流之間的鴻溝。這項研究為開發具備透明度、可重現性，且能處理全研究量體（full-study）的醫療影像 AI 代理奠定了關鍵技術基礎，有助於推動更符合現實醫療需求的自動化診斷技術發展。