UniMotion：首個融合動作、文本與影像的統一框架，實現跨模態理解與生成的技術突破

本研究提出 UniMotion 統一框架，將人體動作視為連續模態，透過創新的對齊技術與預訓練策略，打破動態捕捉與視覺語義間的藩籬，達成跨模態生成的卓越效能。

Problem

現有的統一模型通常僅能處理特定的模態子集（例如動作與文本，或靜態姿勢與影像），且大多依賴離散標記化（Tokenization）技術。這種方式容易產生量化誤差，並導致動作在時間軸上的連續性遭到破壞，限制了模型在處理複雜人類動作時的表現。

Method

UniMotion 將動作視為與 RGB 影像同等的「一等連續模態」。研究團隊開發了「跨模態對齊動作 VAE」（CMA-VAE）與對稱式雙路徑嵌入器，在大型語言模型（LLM）骨幹中建立平行路徑。技術亮點包含：1. 雙後驗 KL 對齊（DPA），將視覺先驗注入動作表徵；2. 潛在重建對齊（LRA），透過自監督預訓練解決文字監督資料稀疏導致的冷啟動問題。

Results

UniMotion 在涵蓋三種模態間「任意對任意」的理解、生成與編輯等七項任務中，均取得了最先進（SOTA）的效能指標。實驗結果顯示，該框架在跨模態的複雜組合任務上具有顯著優勢，能產生更流暢且符合視覺語義的動作序列。

Significance

這是首個在單一架構中同時整合人體動作、自然語言與 RGB 影像的統一框架。它不僅解決了動作連續性的技術難題，更為未來機器人學習、虛擬角色動畫自動化以及更直覺的人機互動奠定了堅實的跨模態基礎。