Problem
目前的影片獎勵模型面臨兩難困境:判別式模型缺乏顯式推理,容易產生捷徑學習並高度依賴大量資料;而結合思維鏈(CoT)的生成式模型雖具備較好的解釋力,卻因推理與評分在單一自迴歸鏈中過度耦合,導致嚴重的訓練不穩定與優化瓶頸。
Method
研究團隊開發了 DeScore 框架,實行「先思考、後評分」的解耦典範。首先由多模態大模型生成顯式思維鏈,隨後交由獨立的學習查詢標記(query token)與回歸頭進行獎勵預測。優化過程分為兩階段:第一階段透過隨機掩碼機制進行判別式冷啟動,第二階段則利用雙目標強化學習,獨立提升推理品質並校準最終獎勵。
Results
DeScore 成功結合了思維鏈的泛化優勢與判別式評分的穩定性。實驗證明,這種解耦架構能有效緩解訓練過程中的優化困難,確保高品質的語義推理能直接轉化為更精確的獎勵預測,在多種複雜影片場景下皆展現出超越傳統模型的性能。
Significance
此研究為影片獎勵模型提供了一個高效且具解釋性的訓練新標準。透過解耦推理與評分任務,DeScore 不僅強化了模型對人類偏好的理解深度,也為生成式影片模型在後訓練階段與測試時縮放(test-time scaling)的發展提供了關鍵的技術支持。