Problem
現有的自回歸影片生成模型受限於序列性迭代去噪的龐大運算負擔,導致實際部署困難。雖然快取重用技術可透過跳過重複步驟來加速,但現有方法多採用粗粒度的區塊跳過,忽略了像素級的動態差異。這導致高運動區域因去噪不足而產生誤差累積,而靜態區域則白白浪費了運算資源。
Method
開發名為 MotionCache 的動態感知快取框架,將影格間差異作為像素運動特性的輕量化指標。該框架採用「由粗到細」的策略:首先進行預熱階段以建立語義一致性,隨後進入運動加權快取重用階段,根據每個 Token 的運動程度動態調整快取更新頻率,實現精確的運算分配。
Results
在 SkyReels-V2 與 MAGI-1 等尖端模型上的實驗證明,MotionCache 分別達成 6.28 倍與 1.64 倍的顯著加速。在 VBench 品質評測中,生成品質僅分別下降 1% 與 0.01%,顯示該方法在大幅提升推理速度的同時,幾乎不損害影像的視覺優異度。
Significance
這項研究解決了長影片合成中效率與品質難以兼得的困境。透過智慧化的運動感知分配,MotionCache 為自回歸模型提供了一種高效且通用的加速方案,對於推動生成式 AI 影片技術在資源受限環境下的實務應用具有重要貢獻。