先思考後評分：DeScore 解耦推理與評分機制，大幅提升影片獎勵模型的泛化與精準度

本研究提出 DeScore 框架，採用「先思考、後評分」的解耦設計，結合思維鏈推理與獨立評分模組，有效克服現有影片獎勵模型在訓練穩定性與泛化能力上的瓶頸。

Problem

目前的影片獎勵模型面臨兩難困境：判別式模型缺乏顯式推理，容易產生捷徑學習並高度依賴大量資料；而結合思維鏈（CoT）的生成式模型雖具備較好的解釋力，卻因推理與評分在單一自迴歸鏈中過度耦合，導致嚴重的訓練不穩定與優化瓶頸。

Method

研究團隊開發了 DeScore 框架，實行「先思考、後評分」的解耦典範。首先由多模態大模型生成顯式思維鏈，隨後交由獨立的學習查詢標記（query token）與回歸頭進行獎勵預測。優化過程分為兩階段：第一階段透過隨機掩碼機制進行判別式冷啟動，第二階段則利用雙目標強化學習，獨立提升推理品質並校準最終獎勵。

Results

DeScore 成功結合了思維鏈的泛化優勢與判別式評分的穩定性。實驗證明，這種解耦架構能有效緩解訓練過程中的優化困難，確保高品質的語義推理能直接轉化為更精確的獎勵預測，在多種複雜影片場景下皆展現出超越傳統模型的性能。

Significance

此研究為影片獎勵模型提供了一個高效且具解釋性的訓練新標準。透過解耦推理與評分任務，DeScore 不僅強化了模型對人類偏好的理解深度，也為生成式影片模型在後訓練階段與測試時縮放（test-time scaling）的發展提供了關鍵的技術支持。