Problem
大型影片擴散模型雖能生成高解析度內容,但在實際部署時常面臨提示詞敏感度過高、畫面時空不一致以及推論成本過於昂貴等挑戰,導致模型難以精準符合使用者意圖。
Method
研究團隊開發了包含四個階段的系統化框架:首先透過監督式微調(SFT)建立穩定的指令遵循能力;接著採用針對影片擴散優化的群體相對策略優化(GRPO)進行強化學習(RLHF);再結合專門的語言模型進行提示詞增強;最後透過推論優化技術提升系統運行效率。
Results
實驗結果顯示,此統一管線能有效減少影像瑕疵,並在嚴格的採樣成本限制下,顯著改善影片的視覺美感、時空連貫性與可控性,使生成內容更貼近使用者的原始描述。
Significance
該研究為建構可擴展且穩定的影片生成後訓練流程提供了實務藍圖。這套框架不僅能保留預訓練階段學到的控制力,更縮短了模型研發與實際部署間的距離,為高品質影片生成技術的普及奠定基礎。