MoRight：實現解耦相機視角與物體動態的高品質互動式影片生成框架

MoRight 透過解耦運動建模，成功分離相機與物體的運動控制，並學習物體間的因果互動關係，能在自由切換視角下生成具有物理一致性的主被動動態影片。

Problem

現有的影片生成模型難以區分相機移動與物體本身的動作，且缺乏「動作因果關係」的建模。這導致使用者無法在調整視角的同時獨立控制物體，且物體間的互動往往只是單純的像素位移，缺乏符合物理邏輯的連貫反應。

MoRight 提出解耦運動建模架構，將物體運動定義在標準靜態視角中，並透過「時間跨視角注意機制」將其轉移至任意目標相機視角。此外，該框架將動作分解為「主動」與「被動」部分，訓練模型學習因果關係，支援從主動動作推導後果（正向推理）或從期望結果還原動作（逆向推理）。

在三項基準測試中，MoRight 在影片生成品質、動作可控性及互動感知方面均達到頂尖（State-of-the-art）水準。實驗證明，使用者能自由調整相機視角，並在輸入特定動作後獲得極具真實感的物理反饋效果。

這項研究為精確且具互動性的影片生成奠定了基礎，讓創作者能以更直觀的方式操控場景動態與鏡頭軌跡，大幅提升了生成式 AI 在視覺特效與擬真動態模擬中的應用潛力。