Problem

擴散變換器(DiTs)雖能生成高畫質影片,但其循序去噪過程與空時注意力機制計算成本極高。現有的特徵快取技術多仰賴靜態快取假設,在處理動態場景時容易產生殘影、模糊及動作不連貫等視覺偽影。

Method

提出的 WorldCache 是一個感知約束的動態快取框架。其技術亮點包括:運動自適應門檻、顯著性加權偏移估算、結合混合與扭曲的最佳化特徵逼近,以及針對擴散階段設計的相位感知調度機制。

Results

在 Cosmos-Predict2.5-2B 模型的實驗中,WorldCache 成功達成 2.3 倍的推論加速,且僅損失 0.6% 的畫質表現。在 PAI-Bench 基準測試中,其性能顯著超越現有的無需重新訓練之快取方案。

Significance

本研究為影片生成模型的加速提供了新思維,證明透過精準的特徵重用策略,可在不需重新訓練模型的前提下,大幅提升計算效率並確保動態影像的一致性,具備高度的工程實用價值。