Problem
目前如 Genie 與 Matrix-Game 等互動式影片生成模型雖然發展迅速,但各家開發者多使用私有場景與軌跡進行測試,缺乏統一的評測條件與控制介面,導致不同模型間難以進行客觀且公平的跨模型效能對比。
Method
WorldMark 建立了首個統一評測框架,核心包含:(1) 統一動作映射層,將標準 WASD 指令轉譯為各模型原生格式;(2) 階層化測試集,涵蓋 500 個包含第一與第三人稱、寫實與風格化場景的案例;(3) 模組化工具包,用於評估視覺品質、控制對齊度及世界連貫性。
Results
研究團隊成功對六大主流模型進行了對等比較,並將所有資料、程式碼與模型輸出開源。此外更推出 World Model Arena (warena.ai) 線上平台,讓全球使用者能透過側重對比的競賽模式為各模型評分,並即時更新效能排行榜。
Significance
此研究填補了互動式世界模型缺乏標準化測試基準的空白,讓研究者能在相同的基準線上進行實驗。透過標準化的輸入與開放的競技場模式,將顯著推動互動式影片生成領域的技術演進與透明度。