系統化影片生成後訓練框架：全面提升擴散模型的指令遵循與生成效率

本研究提出一套整合監督式微調、強化學習、提示詞增強與推論優化的後訓練框架，旨在縮小預訓練影片擴散模型與實際應用間的差距，顯著提升生成品質與運算效率。

Problem

大型影片擴散模型雖能生成高解析度內容，但在實際部署時常面臨提示詞敏感度過高、畫面時空不一致以及推論成本過於昂貴等挑戰，導致模型難以精準符合使用者意圖。

研究團隊開發了包含四個階段的系統化框架：首先透過監督式微調（SFT）建立穩定的指令遵循能力；接著採用針對影片擴散優化的群體相對策略優化（GRPO）進行強化學習（RLHF）；再結合專門的語言模型進行提示詞增強；最後透過推論優化技術提升系統運行效率。

實驗結果顯示，此統一管線能有效減少影像瑕疵，並在嚴格的採樣成本限制下，顯著改善影片的視覺美感、時空連貫性與可控性，使生成內容更貼近使用者的原始描述。

該研究為建構可擴展且穩定的影片生成後訓練流程提供了實務藍圖。這套框架不僅能保留預訓練階段學到的控制力，更縮短了模型研發與實際部署間的距離，為高品質影片生成技術的普及奠定基礎。