Problem
像素空間擴散模型雖然具備不依賴預訓練自動編碼器的優勢,但往往缺乏強大的語義監督,且難以有效捕捉高階視覺結構。現有的協同去噪(Co-Denoising)方法雖然展現潛力,但因設計選擇過於混雜,使得關鍵的效能驅動因素不明。
Method
研究團隊在統一的 JiT 框架下開發 V-Co,並歸納出四大核心要素:首先是採用「全雙流架構」平衡特徵運算與互動;其次為 Classifier-free Guidance (CFG) 提供「結構化無條件預測」;第三是使用「感知漂移混合損失」強化語義監督;最後透過「RMS 特徵縮放」實現穩定的跨流校準。
Results
在 ImageNet-256 基準測試中,V-Co 在模型參數規模相近的情況下,生成表現顯著優於原始像素空間擴散模型與 REPA 等先進方法。此外,V-Co 在達到更佳生成品質的同時,所需的訓練週期(Epochs)也大幅減少。
Significance
本研究為視覺表徵對齊提供了系統性的研究視角與簡潔有效的技術配方。這不僅解決了像素空間擴散模型的架構設計難題,更為未來開發具備強大語義感知能力的生成模型提供了明確的實務指引。