動態感知快取技術 MotionCache：大幅提升自回歸影片生成效率並兼顧視覺品質

本研究提出 MotionCache 框架，利用影格間的運動差異動態調整快取頻率，解決自回歸影片生成運算量過大的問題，在維持高品質成像的同時，實現最高 6.28 倍的加速。

Problem

現有的自回歸影片生成模型受限於序列性迭代去噪的龐大運算負擔，導致實際部署困難。雖然快取重用技術可透過跳過重複步驟來加速，但現有方法多採用粗粒度的區塊跳過，忽略了像素級的動態差異。這導致高運動區域因去噪不足而產生誤差累積，而靜態區域則白白浪費了運算資源。

開發名為 MotionCache 的動態感知快取框架，將影格間差異作為像素運動特性的輕量化指標。該框架採用「由粗到細」的策略：首先進行預熱階段以建立語義一致性，隨後進入運動加權快取重用階段，根據每個 Token 的運動程度動態調整快取更新頻率，實現精確的運算分配。

在 SkyReels-V2 與 MAGI-1 等尖端模型上的實驗證明，MotionCache 分別達成 6.28 倍與 1.64 倍的顯著加速。在 VBench 品質評測中，生成品質僅分別下降 1% 與 0.01%，顯示該方法在大幅提升推理速度的同時，幾乎不損害影像的視覺優異度。

這項研究解決了長影片合成中效率與品質難以兼得的困境。透過智慧化的運動感知分配，MotionCache 為自回歸模型提供了一種高效且通用的加速方案，對於推動生成式 AI 影片技術在資源受限環境下的實務應用具有重要貢獻。