Problem

現有的影片多模態大模型雖在測試中表現優異,但存在兩大弊端:評分虛高掩蓋了模型細粒度理解的匱乏,且缺乏機制驗證模型是否真正捕捉到支撐答案的時空關鍵證據,導致無法判斷模型是真懂還是瞎猜。

Method

本研究推出 VideoZeroBench 階層式基準測試,收錄人工標註的 13 個領域、500 組問題,並配對精確的時段區間與空間邊界框作為證據。透過五個層級的評估協議,將答案生成、時間定位與空間定位解耦,逐級收緊對證據驗證的要求,嚴格檢視推理過程。

Results

在標準問答設定下,頂尖模型如 Gemini-3-Pro 的正確率亦低於 17%;若進一步要求模型必須精確定位時空證據(Level-5),所有模型的準確率皆跌破 1%,多數模型甚至完全無法產生具備證據支撐的正確預測。

Significance

該研究揭穿了當前影片模型在推理上的虛假繁榮,證實「具備證據支撐的理解」仍是長影片處理的核心瓶頸。VideoZeroBench 提供的評估框架與數據,為開發具備真實視覺推理能力的下一代影片大模型提供了關鍵指引。