AI 真的懂心電圖嗎？ECG-Reasoning-Benchmark 揭露模型邏輯缺陷

本研究開發新型評估框架，檢驗多模態大模型在心電圖判讀上的推理能力。結果顯示模型雖具醫學知識，卻無法連結視覺證據，揭露了現行訓練模式在邏輯推理上的重大缺陷。

Problem

現有的多模態大模型（MLLM）在心電圖自動判讀上表現優異，但其背後的判斷邏輯存疑。目前尚不清楚這些模型是真正執行了臨床上的循序推理，還是僅依賴表面的視覺線索進行模式識別，缺乏對模型推理深度的系統性檢驗。

研究團隊開發了「ECG-Reasoning-Benchmark」，這是一個新型的多輪對話評估框架。該基準涵蓋超過 6,400 個樣本，針對 17 種核心心電圖診斷類型，系統性地測試模型是否能執行從醫學標準到實際波形特徵的逐步邏輯推理。

評估結果顯示，尖端模型在執行多步驟邏輯推演時遭遇嚴重失敗。儘管模型能正確檢索診斷準則，但在維持完整推理鏈方面的成功率極低（僅 6% 完成率），主因在於無法將抽象的醫學知識與心電圖信號中的視覺證據進行有效對接。

研究證實當前的多模態模型在判讀時往往跳過實際的視覺解釋，暴露出訓練範式的核心漏洞。這強調了開發具備強健推理能力之醫療 AI 的迫切性，為未來更具可解釋性與可靠性的臨床診斷工具開發指明了關鍵方向。