WorldMark：互動式影片世界模型統一評測基準，打破私有標準實現公平對比

WorldMark 為互動式影片生成模型建立標準化測試環境，透過統一動作映射與 500 個分級案例，讓不同模型能在相同場景下進行公平效能評比與即時競技。

Problem

目前如 Genie 與 Matrix-Game 等互動式影片生成模型雖然發展迅速，但各家開發者多使用私有場景與軌跡進行測試，缺乏統一的評測條件與控制介面，導致不同模型間難以進行客觀且公平的跨模型效能對比。

WorldMark 建立了首個統一評測框架，核心包含：(1) 統一動作映射層，將標準 WASD 指令轉譯為各模型原生格式；(2) 階層化測試集，涵蓋 500 個包含第一與第三人稱、寫實與風格化場景的案例；(3) 模組化工具包，用於評估視覺品質、控制對齊度及世界連貫性。

研究團隊成功對六大主流模型進行了對等比較，並將所有資料、程式碼與模型輸出開源。此外更推出 World Model Arena (warena.ai) 線上平台，讓全球使用者能透過側重對比的競賽模式為各模型評分，並即時更新效能排行榜。

此研究填補了互動式世界模型缺乏標準化測試基準的空白，讓研究者能在相同的基準線上進行實驗。透過標準化的輸入與開放的競技場模式，將顯著推動互動式影片生成領域的技術演進與透明度。