Tri-Prompting：統整場景、主體與動態控制的創新影片生成框架

本研究提出「Tri-Prompting」統一框架，整合場景構圖、多視角主體一致性與動態控制，解決現有影片生成模型無法同時精準控制多個維度的瓶頸，大幅提升創作自由度。

Problem

現有影片生成模型雖在畫質上取得巨大進展，但缺乏精確且細緻的控制能力。創作者需要同時控制場景構圖、多視角主體一致性，以及相機或物件動態。現行技術通常只能孤立處理這些維度，缺乏統一架構，難以在任意改變姿態時維持主體特徵與多視角合成。

提出「Tri-Prompting」統一框架與兩階段訓練範式。此方法採用雙條件動態模組，利用 3D 追蹤點控制背景場景，並透過降採樣的 RGB 提示控制前景主體。此外，特別設計推論階段的 ControlNet 權重排程（scale schedule），以達到控制精準度與視覺真實感之間的最佳平衡。

實驗顯示，該框架能支援將具備 3D 空間感知的主體插入任意場景，或操控影像中現有主體等全新工作流程。與 Phantom 和 DaS 等基準模型相比，Tri-Prompting 在多視角主體特徵保留、3D 一致性及動態準確度上均表現出顯著的優越性。

突破了過去影片生成技術控制維度破碎的限制，為 AI 影片創作者提供極具實用性與高度客製化的工具。這種能共同控制場景、主體與動態的統一架構，為未來的影音內容創作帶來極高的靈活性與商業應用價值。