Problem
在將流匹配(Flow Matching)模型與人類偏好進行對齊時,直接透過微分生成過程回傳獎勵梯度會面臨龐大的記憶體開銷與梯度爆炸風險。這導致現有方法難以有效更新生成早期的步驟,而這些早期階段正是決定影像全局結構與構圖的關鍵所在。
Method
提出名為 LeapAlign 的微調框架,將長序列生成軌跡簡化為兩次連續的「跳躍」(Leaps),每一步跳躍會跨越多個 ODE 採樣點並直接預測未來潛變量。透過隨機化跳躍的起始與結束時間點,並對與原始生成路徑一致性較高的樣本賦予更高訓練權重,同時對極大梯度項進行加權縮減而非直接捨棄,確保了更新的穩定性與效率。
Results
在微調 Flux 模型時,LeapAlign 在各項指標上均顯著優於基於 GRPO 或傳統直接梯度法的方法。實驗結果顯示,該方法不僅產出的影像品質更高,在圖文一致性(Image-Text Alignment)的評測中也達到了目前最先進(SOTA)的技術水準。
Significance
本研究為大型生成模型的後訓練對齊提供了一種高效路徑,克服了長序列反向傳播的運算瓶頸。它證明了即便大幅縮短生成軌跡,也能精準捕捉並優化模型在任何生成階段的表現,對於提升未來生成式 AI 的訓練效率與影像細節控制力具有重要價值。