挑戰影片大模型的視覺極限：VideoZeroBench 透過時空證據驗證揭露長影片理解的真實困境

VideoZeroBench 是一款針對長影片問答設計的階層式基準測試，透過要求模型同時提供精確的時空證據，揭露現有模型在視覺推理上的嚴重缺陷與過度虛高的評分。

Problem

現有的影片多模態大模型雖在測試中表現優異，但存在兩大弊端：評分虛高掩蓋了模型細粒度理解的匱乏，且缺乏機制驗證模型是否真正捕捉到支撐答案的時空關鍵證據，導致無法判斷模型是真懂還是瞎猜。

本研究推出 VideoZeroBench 階層式基準測試，收錄人工標註的 13 個領域、500 組問題，並配對精確的時段區間與空間邊界框作為證據。透過五個層級的評估協議，將答案生成、時間定位與空間定位解耦，逐級收緊對證據驗證的要求，嚴格檢視推理過程。

在標準問答設定下，頂尖模型如 Gemini-3-Pro 的正確率亦低於 17%；若進一步要求模型必須精確定位時空證據（Level-5），所有模型的準確率皆跌破 1%，多數模型甚至完全無法產生具備證據支撐的正確預測。

該研究揭穿了當前影片模型在推理上的虛假繁榮，證實「具備證據支撐的理解」仍是長影片處理的核心瓶頸。VideoZeroBench 提供的評估框架與數據，為開發具備真實視覺推理能力的下一代影片大模型提供了關鍵指引。