Problem
目前的影片編輯領域面臨大規模人工標記資料集匱乏的問題,且缺乏標準化的評估系統。現有資源多受限於規模過小或缺乏人類品質標籤,導致開發者必須依賴昂貴的人力檢查,或是使用專業度不足、無法精確評估編輯品質的通用型視覺語言模型(VLM)。
Method
研究團隊建立包含 5,049 個編輯範例的 VEFX-Dataset,涵蓋 9 大類與 32 小類編輯需求,並從指令遵循、渲染品質及編輯排他性(Edit Exclusivity)三個維度進行標記。以此為基礎訓練出 VEFX-Reward 模型,能綜合分析原始影片、指令與編輯後影片,透過序數回歸預測品質得分。此外,同步釋出包含 300 組精選樣本的 VEFX-Bench 供標準化比較。
Results
實驗證明 VEFX-Reward 與人類判斷的一致性顯著高於現有的通用型模型與獎勵模型。透過此基準對商用及開源系統進行測試,結果顯示目前的模型在視覺真實性、指令遵循度以及維持非編輯區域一致性(編輯局部性)之間,仍存在顯著的技術差距。
Significance
這項研究為影片編輯技術提供了關鍵的基礎評估設施。透過解耦的評估維度與專用的獎勵模型,不僅降低了研發過程中的評估成本,更能協助研究者精確定位模型弱點,推動高品質人工智慧影片特效與編輯技術的發展。