Problem
視覺語言模型(VLMs)常出現「視而不見」的問題,即便在需要視覺推理的任務中,也未能充分利用圖像資訊。研究發現這種現象具有選擇性,模型會根據提問的語言框架(如選擇題或是非題)而改變對圖像的關注程度,導致即使視覺推理需求相同,模型表現卻出現顯著落差。
Method
研究團隊以視覺注意力(visual attention)作為探測工具,量化不同框架如何改變注意力的強度與分布。接著,開發出一種輕量化的提示微調(prompt-tuning)方法,利用「可學習標記」(learnable tokens)來引導模型產生類似於開放式提問中的強健視覺注意模式。
Results
實驗證明封閉式框架會大幅降低模型對圖像背景的注意力,將焦點轉移至無意義的標記,這是導致準確度下降與跨框架不一致的主因。透過所提之微調方法,模型能顯著改善視覺連結(visual grounding),並在各種提問框架下均展現出更優異且一致的預測表現。
Significance
本研究揭示了 VLM 內部決策的機制性缺陷,證實提問方式會直接操縱模型的視覺感知。這為優化多模態模型的強健性提供了新路徑,對於開發在不同對話情境下皆能維持穩定視覺推理能力的人工智慧系統具有重要價值。