Problem

目前的高性能擴散模型參數動輒數十億,導致運算延遲高且難以部署於手機等行動設備。雖然已有部分行動端擴散模型提升了效率,但大多僅限於文字生成影像(T2I),缺乏同樣高效的影像編輯支援,難以在單一輕量化架構中兼顧兩者。

Method

研究團隊開發了 DreamLite,這是一個僅有 0.39B 參數的統一模型。其核心採用剪枝後的行動端 U-Net 架構,並在潛在空間(Latent Space)中使用空間拼接技術來統一任務輸入。此外,模型導入了任務漸進式聯合預訓練策略,結合高品質指令微調(SFT)與強化學習,並透過步驟蒸餾(Step Distillation)將去噪過程縮減至 4 步。

Results

DreamLite 在 GenEval(0.72)與 ImgEdit(4.11)評測中均表現優異,不僅超越現有的行動端模型,甚至能與伺服器等級的模型競爭。在實測中,該模型於小米 14 手機上處理 1024 x 1024 解析度的影像生成或編輯,耗時僅需不到 1 秒。

Significance

這是首個成功將文字生成影像與影像編輯整合於單一網路的輕量化行動端擴散模型。這項技術大幅降低了高品質影像創作的門檻與延遲,為在資源受限的行動裝置上實現複雜的生成式 AI 應用開闢了新路徑。