統一多模態理解與生成：MMaDA-VLA 透過原生擴散模型革新機器人操作與長程任務一致性

本研究開發 MMaDA-VLA 模型，將語言、影像與動作整合至統一離散擴散空間，同步預測未來視覺目標與動作序列，顯著提升機器人處理複雜長程任務的精準度與穩定性。

Problem

現有視覺-語言-動作（VLA）模型多採用階層式或自回歸架構，這類設計常導致額外的運算負擔、時間維度上的不一致，以及長程任務中的誤差累積。此外，現有模型若不額外增加複雜模組，通常難以有效捕捉環境的動態變化。

Method

提出一種原生的離散擴散框架，將語言、影像與連續機器人控制指令嵌入統一的離散標記空間中。透過遮罩標記去噪（masked token denoising）技術，使單一骨幹網路能平行生成未來目標視覺觀測與動作區塊。這種疊代去噪機制實現了全域且無序的精煉，無需輔助世界模型即可將動作建立在預測的未來視覺結果上。

Results

在多項模擬基準測試與真實世界任務中均達到頂尖效能。在 LIBERO 測試中獲得 98.0% 的平均成功率，而在 CALVIN 任務中則達到 4.78 的平均長度，證明了模型在處理複雜環境與長程操作時的卓越穩定性。

Significance

此研究成功將多模態理解與生成整合至單一原生預訓練框架，打破了感知與行動間的界限。它證明了單一模型能在不增加架構複雜度的前提下，同時具備環境動態預測與高精度動作執行的能力，為未來通用機器人模型的發展路徑提供重要參考。