Problem

目前的影片生成模型雖被視為潛在的「世界模型」,但現有的評估流程大多過度依賴人類主觀判斷或深度學習評分器。這些方法無法精確診斷影片是否符合真實的 3D 物理結構,難以偵測出幾何層面的邏輯失效,限制了模型在物理擬真度上的發展。

Method

研究團隊開發了 PDI-Bench(透視失真指標)量化框架。該方法利用 SAM 2 與 CoTracker3 等技術對生成影片進行物件分割與點追蹤,隨後透過單目重建技術將其提升至 3D 空間座標。最後,藉由計算投影幾何殘差,從「比例深度對齊」、「3D 運動一致性」與「3D 結構剛性」三個維度進行稽核。

Results

實驗分析多款頂尖影片生成模型後發現,PDI-Bench 能揭露現有感官指標(Perceptual Metrics)無法捕捉的幾何失效模式。即便在視覺上看似流暢的影片,在 3D 結構的穩定度與物理一致性上仍存在顯著缺陷,這為模型優化提供了明確的診斷資訊。

Significance

此研究建立了一個系統化的評估標準與 PDI-Dataset 資料集,為邁向物理導向的影像生成提供了關鍵工具。它讓開發者能更科學地衡量影片生成模型作為「物理世界模型」的成熟度,對於自駕車模擬、機器人學習等需高度物理準確性的領域具有重要價值。