Problem

現有視覺-語言-動作(VLA)模型多採用階層式或自回歸架構,這類設計常導致額外的運算負擔、時間維度上的不一致,以及長程任務中的誤差累積。此外,現有模型若不額外增加複雜模組,通常難以有效捕捉環境的動態變化。

Method

提出一種原生的離散擴散框架,將語言、影像與連續機器人控制指令嵌入統一的離散標記空間中。透過遮罩標記去噪(masked token denoising)技術,使單一骨幹網路能平行生成未來目標視覺觀測與動作區塊。這種疊代去噪機制實現了全域且無序的精煉,無需輔助世界模型即可將動作建立在預測的未來視覺結果上。

Results

在多項模擬基準測試與真實世界任務中均達到頂尖效能。在 LIBERO 測試中獲得 98.0% 的平均成功率,而在 CALVIN 任務中則達到 4.78 的平均長度,證明了模型在處理複雜環境與長程操作時的卓越穩定性。

Significance

此研究成功將多模態理解與生成整合至單一原生預訓練框架,打破了感知與行動間的界限。它證明了單一模型能在不增加架構複雜度的前提下,同時具備環境動態預測與高精度動作執行的能力,為未來通用機器人模型的發展路徑提供重要參考。