Problem
現有的影片生成模型難以區分相機移動與物體本身的動作,且缺乏「動作因果關係」的建模。這導致使用者無法在調整視角的同時獨立控制物體,且物體間的互動往往只是單純的像素位移,缺乏符合物理邏輯的連貫反應。
Method
MoRight 提出解耦運動建模架構,將物體運動定義在標準靜態視角中,並透過「時間跨視角注意機制」將其轉移至任意目標相機視角。此外,該框架將動作分解為「主動」與「被動」部分,訓練模型學習因果關係,支援從主動動作推導後果(正向推理)或從期望結果還原動作(逆向推理)。
Results
在三項基準測試中,MoRight 在影片生成品質、動作可控性及互動感知方面均達到頂尖(State-of-the-art)水準。實驗證明,使用者能自由調整相機視角,並在輸入特定動作後獲得極具真實感的物理反饋效果。
Significance
這項研究為精確且具互動性的影片生成奠定了基礎,讓創作者能以更直觀的方式操控場景動態與鏡頭軌跡,大幅提升了生成式 AI 在視覺特效與擬真動態模擬中的應用潛力。