Problem

現有影片生成模型雖在畫質上取得巨大進展,但缺乏精確且細緻的控制能力。創作者需要同時控制場景構圖、多視角主體一致性,以及相機或物件動態。現行技術通常只能孤立處理這些維度,缺乏統一架構,難以在任意改變姿態時維持主體特徵與多視角合成。

Method

提出「Tri-Prompting」統一框架與兩階段訓練範式。此方法採用雙條件動態模組,利用 3D 追蹤點控制背景場景,並透過降採樣的 RGB 提示控制前景主體。此外,特別設計推論階段的 ControlNet 權重排程(scale schedule),以達到控制精準度與視覺真實感之間的最佳平衡。

Results

實驗顯示,該框架能支援將具備 3D 空間感知的主體插入任意場景,或操控影像中現有主體等全新工作流程。與 Phantom 和 DaS 等基準模型相比,Tri-Prompting 在多視角主體特徵保留、3D 一致性及動態準確度上均表現出顯著的優越性。

Significance

突破了過去影片生成技術控制維度破碎的限制,為 AI 影片創作者提供極具實用性與高度客製化的工具。這種能共同控制場景、主體與動態的統一架構,為未來的影音內容創作帶來極高的靈活性與商業應用價值。