Problem
目前多模態大型語言模型(MLLM)在評估視覺美感時,多依賴單一圖片的純量評分,但這種方式難以準確反映人類的比較偏好。研究發現,專家對圖片的直接排名一致性遠高於分數衍生排名,顯示現有模型評價機制與人類審美判斷存在脫節。
Method
研究團隊開發了「視覺美感基準測試」(VAB),將美感評估從單圖評分轉化為在相同主題候選組中的「比較選擇」。該基準包含涵蓋精緻藝術、攝影與插畫的 400 項任務與 1,195 張圖像,每項任務均由 10 位獨立專家共同標註,用以評測 20 款尖端 MLLM 及 6 款視覺品質獎勵模型。
Results
測試顯示,表現最佳的 AI 系統僅能在 26.5% 的任務中準確辨識出最佳與最差圖像,遠低於人類專家的 68.9%。此外,透過 2,000 個專家範例微調 35B 參數模型,其表現可顯著提升至接近大型開源模型的水平,證實 VAB 的比較訊號具備強大的遷移性。
Significance
此研究揭示了當前 AI 與人類專業審美之間的巨大鴻溝。VAB 作為首個基於集合比較且由專家背書的測試平台,不僅量化了這一差距,更為未來追蹤並縮小 AI 在視覺美感判斷上的落差奠定了基礎。