FP4 探索與 BF16 訓練：Sol-RL 框架大幅加速大規模擴散模型的人類偏好對齊

本研究提出 Sol-RL 框架，透過 FP4 量化加速採樣探索並結合 BF16 精度優化，在確保訓練品質的前提下，將擴散模型強化學習的收斂速度提升達 4.64 倍。

Problem

大型擴散模型（如 FLUX.1-12B）在進行強化學習對齊訓練時，增加採樣組數（Rollout Group Size）雖能顯著提升效能，卻會帶來沉重的運算負擔。此外，若直接在採樣流程中使用 FP4 量化技術，則面臨效能退化的風險，難以兼顧運算效率與訓練完整性。

提出 Sol-RL（Speed-of-light RL）兩階段強化學習框架。首先，利用高通量的 NVFP4 採樣生成大量候選樣本，並篩選出具高對比性的子集；第二階段則僅針對選定樣本以 BF16 高精度重新生成，並以此進行策略優化。此設計成功將候選樣本探索與模型優化解耦，發揮硬體加速優勢。

實驗結果顯示，在 SANA、FLUX.1 及 SD3.5-L 等多個模型上，Sol-RL 能夠在保有 BF16 精度訓練品質的同時，完全釋放 FP4 算力帶來的吞吐量紅利。與傳統流程相比，該框架將訓練收斂速度提升了 4.64 倍，並在多項評測指標中展現卓越的對齊效能。

本研究透過演算法與硬體特性的協同設計，克服了擴散模型強化學習中的算力瓶頸。這項貢獻使得開發者能以極低成本實現海量採樣擴展，為超大型生成式模型的對齊與優化提供了一條高效且具擴展性的技術路徑。