視覺美感基準測試 VAB：尖端多模態模型能否如專家般鑑賞美感？

本研究指出單一圖片評分無法精確反映美感，進而提出 VAB 比較式基準測試。透過 400 項任務與專家標註，證實頂尖 AI 模型的美感判斷準確度仍大幅落後人類，為提升模型審美能力提供重要基準。

Problem

目前多模態大型語言模型（MLLM）在評估視覺美感時，多依賴單一圖片的純量評分，但這種方式難以準確反映人類的比較偏好。研究發現，專家對圖片的直接排名一致性遠高於分數衍生排名，顯示現有模型評價機制與人類審美判斷存在脫節。

研究團隊開發了「視覺美感基準測試」（VAB），將美感評估從單圖評分轉化為在相同主題候選組中的「比較選擇」。該基準包含涵蓋精緻藝術、攝影與插畫的 400 項任務與 1,195 張圖像，每項任務均由 10 位獨立專家共同標註，用以評測 20 款尖端 MLLM 及 6 款視覺品質獎勵模型。

測試顯示，表現最佳的 AI 系統僅能在 26.5% 的任務中準確辨識出最佳與最差圖像，遠低於人類專家的 68.9%。此外，透過 2,000 個專家範例微調 35B 參數模型，其表現可顯著提升至接近大型開源模型的水平，證實 VAB 的比較訊號具備強大的遷移性。

此研究揭示了當前 AI 與人類專業審美之間的巨大鴻溝。VAB 作為首個基於集合比較且由專家背書的測試平台，不僅量化了這一差距，更為未來追蹤並縮小 AI 在視覺美感判斷上的落差奠定了基礎。