Problem
現有的影片生成模型雖具備高度擬真感,但缺乏對場景元素的精確控制力,且難以保證 3D 一致性;相對地,3D 引擎雖能提供細粒度操控與一致性,其輸出卻常受限於「恐怖谷效應」而顯得不夠真實,導致模擬環境與現實影像之間存在巨大鴻溝。
Method
研究團隊提出 RealMaster,利用影片擴散模型將算圖提升至照片級寫實品質。該方法透過「錨點傳播策略」產生配對資料集,先強化首尾影格的寫實度,再結合幾何引導資訊將其特徵傳播至中間影格。最後,透過訓練 IC-LoRA 提煉高品質輸出,使其能處理影格中途出現的物件,並達成不需錨點影格的泛化推論。
Results
在複雜的 GTA-V 遊戲序列評測中,RealMaster 在擬真度上顯著優於現有的影片編輯基準模型。實驗證實,該技術能在大幅提升影像寫實品質的同時,精確保留原始 3D 控制所設定的幾何構造、動態流向以及物體身分一致性。
Significance
此項研究成功填補了虛擬模擬與真實視覺之間的技術空白。RealMaster 讓創作者能同時享有 3D 引擎的結構精準度與生成式 AI 的視覺表現力,為數位內容創作、虛擬場景建構及影視特效製作提供了關鍵的技術路徑。