VEFX-Bench：全面評估影片編輯與視覺特效的開源資料集與自動評估基準

本研究推出首個大規模影片編輯資料集 VEFX-Dataset，並開發專用的評估模型 VEFX-Reward 與基準測試 VEFX-Bench，解決了影片編輯缺乏標準化自動評估工具的難題。

Problem

目前的影片編輯領域面臨大規模人工標記資料集匱乏的問題，且缺乏標準化的評估系統。現有資源多受限於規模過小或缺乏人類品質標籤，導致開發者必須依賴昂貴的人力檢查，或是使用專業度不足、無法精確評估編輯品質的通用型視覺語言模型（VLM）。

Method

研究團隊建立包含 5,049 個編輯範例的 VEFX-Dataset，涵蓋 9 大類與 32 小類編輯需求，並從指令遵循、渲染品質及編輯排他性（Edit Exclusivity）三個維度進行標記。以此為基礎訓練出 VEFX-Reward 模型，能綜合分析原始影片、指令與編輯後影片，透過序數回歸預測品質得分。此外，同步釋出包含 300 組精選樣本的 VEFX-Bench 供標準化比較。

Results

實驗證明 VEFX-Reward 與人類判斷的一致性顯著高於現有的通用型模型與獎勵模型。透過此基準對商用及開源系統進行測試，結果顯示目前的模型在視覺真實性、指令遵循度以及維持非編輯區域一致性（編輯局部性）之間，仍存在顯著的技術差距。

Significance

這項研究為影片編輯技術提供了關鍵的基礎評估設施。透過解耦的評估維度與專用的獎勵模型，不僅降低了研發過程中的評估成本，更能協助研究者精確定位模型弱點，推動高品質人工智慧影片特效與編輯技術的發展。