突破大規模機器人評估瓶頸：dWorldEval 離散擴散世界模型的全新架構與實踐

dWorldEval 提出離散擴散世界模型作為評估代理，將多模態資料統一為標記空間，並透過進度標記自動判定任務成功與否，大幅提升了機器人策略評估的擴展性與準確性。

Problem

在成千上萬種環境與任務中評估機器人策略，傳統方法面臨極大的運算成本與擴展性挑戰，難以在缺乏實體模擬或真實環境的情況下，對大量策略進行快速且準確的效能驗證。

Method

研發團隊提出 dWorldEval 系統，將視覺、語言與機器人動作等所有模態映射至統一的標記空間（Token Space），並利用單一 Transformer 去噪網路進行建模。該架構結合稀疏關鍵影格記憶體（Sparse Keyframe Memory）以維持時空一致性，並引入獨特的「進度標記」（Progress Token），在推論時同步預測未來觀測結果與任務完成度。

Results

實驗結果顯示，dWorldEval 在 LIBERO、RoboTwin 及多項真實機器人任務中，表現顯著優於 WorldEval、Ctrl-World 與 WorldGym 等現有基準。當進度標記達到 1 時，模型能自動精確判定任務成功，證明其具備高度的模擬保真度。

Significance

這項研究為大規模機器人評估奠定了全新的世界模型模擬範例，提供了一個可擴展的代理評估工具，讓開發者能以更高效、低成本的方式優化機器人決策模型，加速自動化技術的實際落地。