提問方式決定視覺理解：揭開視覺語言模型受制於語言框架的「選擇性視覺缺失」現象

本研究發現提問框架會顯著影響視覺語言模型的注意力分配，導致封閉式提問準確度下降。透過輕量化提示微調技術，能有效引導模型關注視覺關鍵區域，提升推論穩定性與效能。

Problem

視覺語言模型（VLMs）常出現「視而不見」的問題，即便在需要視覺推理的任務中，也未能充分利用圖像資訊。研究發現這種現象具有選擇性，模型會根據提問的語言框架（如選擇題或是非題）而改變對圖像的關注程度，導致即使視覺推理需求相同，模型表現卻出現顯著落差。

研究團隊以視覺注意力（visual attention）作為探測工具，量化不同框架如何改變注意力的強度與分布。接著，開發出一種輕量化的提示微調（prompt-tuning）方法，利用「可學習標記」（learnable tokens）來引導模型產生類似於開放式提問中的強健視覺注意模式。

實驗證明封閉式框架會大幅降低模型對圖像背景的注意力，將焦點轉移至無意義的標記，這是導致準確度下降與跨框架不一致的主因。透過所提之微調方法，模型能顯著改善視覺連結（visual grounding），並在各種提問框架下均展現出更優異且一致的預測表現。

本研究揭示了 VLM 內部決策的機制性缺陷，證實提問方式會直接操縱模型的視覺感知。這為優化多模態模型的強健性提供了新路徑，對於開發在不同對話情境下皆能維持穩定視覺推理能力的人工智慧系統具有重要價值。