Problem

現有的多模態大模型(MLLM)在心電圖自動判讀上表現優異,但其背後的判斷邏輯存疑。目前尚不清楚這些模型是真正執行了臨床上的循序推理,還是僅依賴表面的視覺線索進行模式識別,缺乏對模型推理深度的系統性檢驗。

Method

研究團隊開發了「ECG-Reasoning-Benchmark」,這是一個新型的多輪對話評估框架。該基準涵蓋超過 6,400 個樣本,針對 17 種核心心電圖診斷類型,系統性地測試模型是否能執行從醫學標準到實際波形特徵的逐步邏輯推理。

Results

評估結果顯示,尖端模型在執行多步驟邏輯推演時遭遇嚴重失敗。儘管模型能正確檢索診斷準則,但在維持完整推理鏈方面的成功率極低(僅 6% 完成率),主因在於無法將抽象的醫學知識與心電圖信號中的視覺證據進行有效對接。

Significance

研究證實當前的多模態模型在判讀時往往跳過實際的視覺解釋,暴露出訓練範式的核心漏洞。這強調了開發具備強健推理能力之醫療 AI 的迫切性,為未來更具可解釋性與可靠性的臨床診斷工具開發指明了關鍵方向。