Problem
在成千上萬種環境與任務中評估機器人策略,傳統方法面臨極大的運算成本與擴展性挑戰,難以在缺乏實體模擬或真實環境的情況下,對大量策略進行快速且準確的效能驗證。
Method
研發團隊提出 dWorldEval 系統,將視覺、語言與機器人動作等所有模態映射至統一的標記空間(Token Space),並利用單一 Transformer 去噪網路進行建模。該架構結合稀疏關鍵影格記憶體(Sparse Keyframe Memory)以維持時空一致性,並引入獨特的「進度標記」(Progress Token),在推論時同步預測未來觀測結果與任務完成度。
Results
實驗結果顯示,dWorldEval 在 LIBERO、RoboTwin 及多項真實機器人任務中,表現顯著優於 WorldEval、Ctrl-World 與 WorldGym 等現有基準。當進度標記達到 1 時,模型能自動精確判定任務成功,證明其具備高度的模擬保真度。
Significance
這項研究為大規模機器人評估奠定了全新的世界模型模擬範例,提供了一個可擴展的代理評估工具,讓開發者能以更高效、低成本的方式優化機器人決策模型,加速自動化技術的實際落地。