WorldCache：感知約束動態快取框架，在不損害畫質下實現 2.3 倍影片生成模型加速

本研究提出 WorldCache 框架，透過動態快取與感知門檻機制，顯著提升影片生成模型推論效率。在維持 99.4% 畫質下達到 2.3 倍加速，並有效解決傳統快取的殘影問題。

Problem

擴散變換器（DiTs）雖能生成高畫質影片，但其循序去噪過程與空時注意力機制計算成本極高。現有的特徵快取技術多仰賴靜態快取假設，在處理動態場景時容易產生殘影、模糊及動作不連貫等視覺偽影。

提出的 WorldCache 是一個感知約束的動態快取框架。其技術亮點包括：運動自適應門檻、顯著性加權偏移估算、結合混合與扭曲的最佳化特徵逼近，以及針對擴散階段設計的相位感知調度機制。

在 Cosmos-Predict2.5-2B 模型的實驗中，WorldCache 成功達成 2.3 倍的推論加速，且僅損失 0.6% 的畫質表現。在 PAI-Bench 基準測試中，其性能顯著超越現有的無需重新訓練之快取方案。

本研究為影片生成模型的加速提供了新思維，證明透過精準的特徵重用策略，可在不需重新訓練模型的前提下，大幅提升計算效率並確保動態影像的一致性，具備高度的工程實用價值。