視覺與物理規律的完美融合：Phantom 透過聯合建模技術打造具備物理連貫性的生成影片

本論文提出 Phantom 模型，將潛在物理動態推理整合進影片生成過程，使模型不僅能產出視覺逼真的影像，更能遵循現實世界的物理法則，解決生成影片動態不自然的問題。

Problem

現有的影片生成模型雖然在視覺逼真度上有顯著進步，但單純擴大資料規模與模型尺寸，仍無法讓系統真正理解支配現實世界的物理法則，導致生成的動作常出現不符合慣性或重力的違和感。

提出名為 Phantom 的物理灌注影片生成模型，將視覺內容與潛在物理動態進行聯合建模。該模型採用「物理感知影片表示法」作為抽象且具資訊量的嵌入向量，使其在預測未來畫面時，能同時推論底層的物理狀態，而無需手動指定複雜的物理參數或顯式定義動態公式。

實驗結果顯示，Phantom 在標準影片生成任務與物理感知基準測試中，對於物理動態的遵循程度均顯著優於現有方法。此外，該模型在影像品質與視覺真實感（Perceptual fidelity）上也展現出極具競爭力的表現。

這項研究成功將物理推理直接嵌入生成過程中，為具備物理常識的人工智慧影像系統開闢了新路徑。這對於需要高度真實動態模擬的領域，如自動駕駛虛擬訓練、機器人學習與高品質影視特效製作，具有極高的參考價值與應用潛力。