重新審視大型視覺語言模型於胸部 X 光推理的視覺歸因：MedFocus 提升診斷可信度

研究指出目前視覺歸因方法難以真實反映大型語言模型的醫療推理依據，對此提出 MedFocus 框架，透過因果干預與解剖定位顯著提升歸因準確性，強化臨床信任。

Problem

大型視覺語言模型（LVLM）在醫療應用中雖具潛力，但其預測結果往往缺乏可靠的視覺證據支持，引發臨床信任危機。現有的視覺歸因方法能否真實反映模型內部的推理邏輯，在缺乏標準答案（Ground-truth）的情況下一直難以驗證。

Method

研究團隊開發出一套因果評估框架，透過反事實編輯（Counterfactual Editing）篩選出具因果關係的胸部 X 光影像樣本。此外，提出 MedFocus 歸因方法，利用非平衡最優傳輸（Unbalanced Optimal Transport）定位臨床解剖區域，並藉由針對性干預來衡量這些區域對模型輸出的因果影響。

Results

在對 11 種歸因方法與 6 個開源模型的評估中發現，傳統方法多半無法精準識別模型實際使用的證據。相比之下，MedFocus 在空間、概念及標記（Token）層級的歸因表現皆顯著優於現有技術，能更忠實地呈現模型推理過程。

Significance

這項研究為提升醫療 AI 的透明度邁出重要一步。透過 MedFocus 提供的精確歸因，臨床醫師能更清楚理解大型視覺語言模型的決策依據，進而建立 AI 輔助診斷系統的可信度與安全性。