UniVidX：統一多模態影片生成框架，整合擴散模型先驗實現全向模態轉換

UniVidX 透過隨機條件遮罩與解耦門控技術，打破固定模態映射限制，在極少訓練資源下實現高品質的影片生成與多樣化模態對齊，展現卓越的泛化能力。

Problem

目前的影片擴散模型（VDM）多針對特定任務進行獨立訓練，這導致輸入與輸出的映射關係被固定，限制了不同模態（如 RGB、深度、法線等）之間關聯性的建模能力。此外，現有方法難以在保持預訓練模型強大先驗知識的同時，靈活切換不同的生成目標。

Method

研究團隊開發了 UniVidX 框架，包含三大核心設計：首先是「隨機條件遮罩（SCM）」，透過隨機分配模態為已知條件或生成目標，實現全向生成；其次是「解耦門控 LoRA（DGL）」，為各模態配置獨立的參數微調模組以保留原始模型先驗；最後是「跨模態自我注意力（CMSA）」，藉由共享鍵值（KV）促進跨模態的資訊交換與一致性。

Results

UniVidX 在「內在特性影片生成（UniVid-Intrinsic）」與「RGBA 圖層影片合成（UniVid-Alpha）」兩個領域均表現出色。實驗證明，即使僅使用不到 1,000 部影片進行訓練，該框架生成的品質與一致性仍能媲美甚至超越現有的尖端專門模型，且具備強大的野外場景泛化表現。

Significance

這項研究證明了在統一空間內處理多樣化影片任務的可行性。UniVidX 不僅大幅提升了多模態影片生成的靈活性，也為未來開發更通用、具備跨模態理解力的影片生成工具奠定了重要基礎，有效降低了多工處理的訓練成本。