NVIDIA 推動端到端 FP8 強化學習技術，加速大語言模型從文字生成轉向複雜推理

隨著 AI 從純文字生成進展至複雜邏輯推理，強化學習成為關鍵。NVIDIA 推出端到端 FP8 精度訓練方案，能大幅提升強化學習演算法的吞吐量並降低記憶體消耗。

大型語言模型（LLM）的發展正處於轉折點，從過去單純的文字預測與生成，轉向具備深層思考與邏輯推理能力的智能體。在這一波演進中，強化學習（Reinforcement Learning, RL）扮演了核心角色，特別是像「群組相對策略優化」（GRPO）這類演算法，已成為提升模型推理能力的技術標配。然而，強化學習的訓練過程極其耗費運算資源，如何提升訓練效率並降低硬體門檻，成為 AI 業界亟需解決的難題。

NVIDIA 近期提出的解決方案，是將 FP8（8 位元浮點數）精度應用於端到端的強化學習訓練流程中。過去，為了維持模型的精準度，開發者往往傾向於使用 FP16 或 BF16 等較高精度的數值格式。但隨著硬體架構的進步，尤其是 NVIDIA Blackwell 與 Hopper 架構對 FP8 的原生支援，端到端的 FP8 訓練已能實現在幾乎不損失模型效能的前提下，顯著提升資料吞吐量。這項技術不僅優化了前向運算的效率，更在反向傳播與梯度更新中發揮了關鍵作用，讓模型在有限的記憶體頻寬下處理更多資料。

這項發展對產業具備深遠影響。首先，端到端 FP8 技術能有效減輕資料中心在訓練大型推理模型時的電力與散熱負擔。由於資料處理量提升，開發團隊能在更短的時間內完成模型迭代，這對於競爭激烈的 AI 市場至關重要。其次，這降低了企業開發高效能推理模型的門檻，即使是資源相對有限的技術團隊，也能透過更有效率的數值精度配置，在現有的硬體基礎上跑出更優異的成果。

值得關注的是，這不只是單純的硬體升級，而是軟硬體高度協同的成果。這項技術必須搭配 Transformer Engine 等軟體框架，才能在動態調整數值範圍的同時，確保訓練過程的穩定性。對於台灣的伺服器供應鏈與 AI 軟體開發者而言，理解並掌握 FP8 端到端訓練的技術細節，將是未來參與高階 AI 模型運算生態系的關鍵。當 AI 開始學會「思考」，背後的運算基礎設施也必須同步進化，而低精度、高吞吐量的訓練模式，正是推動下一波 AI 轉型的核心動力。