Problem

目前的影片擴散模型(VDM)多針對特定任務進行獨立訓練,這導致輸入與輸出的映射關係被固定,限制了不同模態(如 RGB、深度、法線等)之間關聯性的建模能力。此外,現有方法難以在保持預訓練模型強大先驗知識的同時,靈活切換不同的生成目標。

Method

研究團隊開發了 UniVidX 框架,包含三大核心設計:首先是「隨機條件遮罩(SCM)」,透過隨機分配模態為已知條件或生成目標,實現全向生成;其次是「解耦門控 LoRA(DGL)」,為各模態配置獨立的參數微調模組以保留原始模型先驗;最後是「跨模態自我注意力(CMSA)」,藉由共享鍵值(KV)促進跨模態的資訊交換與一致性。

Results

UniVidX 在「內在特性影片生成(UniVid-Intrinsic)」與「RGBA 圖層影片合成(UniVid-Alpha)」兩個領域均表現出色。實驗證明,即使僅使用不到 1,000 部影片進行訓練,該框架生成的品質與一致性仍能媲美甚至超越現有的尖端專門模型,且具備強大的野外場景泛化表現。

Significance

這項研究證明了在統一空間內處理多樣化影片任務的可行性。UniVidX 不僅大幅提升了多模態影片生成的靈活性,也為未來開發更通用、具備跨模態理解力的影片生成工具奠定了重要基礎,有效降低了多工處理的訓練成本。