Problem

現有的影片生成模型雖然在視覺逼真度上有顯著進步,但單純擴大資料規模與模型尺寸,仍無法讓系統真正理解支配現實世界的物理法則,導致生成的動作常出現不符合慣性或重力的違和感。

Method

提出名為 Phantom 的物理灌注影片生成模型,將視覺內容與潛在物理動態進行聯合建模。該模型採用「物理感知影片表示法」作為抽象且具資訊量的嵌入向量,使其在預測未來畫面時,能同時推論底層的物理狀態,而無需手動指定複雜的物理參數或顯式定義動態公式。

Results

實驗結果顯示,Phantom 在標準影片生成任務與物理感知基準測試中,對於物理動態的遵循程度均顯著優於現有方法。此外,該模型在影像品質與視覺真實感(Perceptual fidelity)上也展現出極具競爭力的表現。

Significance

這項研究成功將物理推理直接嵌入生成過程中,為具備物理常識的人工智慧影像系統開闢了新路徑。這對於需要高度真實動態模擬的領域,如自動駕駛虛擬訓練、機器人學習與高品質影視特效製作,具有極高的參考價值與應用潛力。