Nemotron 3 Super：結合 Mamba 與 Transformer 的混合專家模型，為高效代理推理提供開源新選擇

本研究發表 120B 混合架構模型 Nemotron 3 Super，透過 LatentMoE 與 NVFP4 訓練，在維持高準確度的同時大幅提升推論速度，並開源所有資源以促進社群發展。

Problem

大型語言模型在執行複雜的代理推理任務時，常面臨運算資源消耗過大與推論延遲過高的困境，現有架構難以在模型參數規模、運算精度與推論效能之間達成理想的平衡。

Method

研發團隊推出了 Nemotron 3 Super，這是一座擁有 1,200 億參數（活躍參數 120 億）的混合 Mamba-Attention MoE 模型。該模型首度採用 NVFP4 精度進行預訓練，利用 LatentMoE 架構優化每單位 FLOP 的準確度，並加入 MTP 層以支援原生投機解碼技術來加速推論過程。

Results

模型經過 25 兆個 token 的預訓練與強化學習微調，可支援高達 1M 的上下文長度。在基準測試中，其推論吞吐量分別較 GPT-OSS-120B 與 Qwen3.5-122B 提升了 2.2 倍與 7.5 倍，且在常見評測集上展現出極具競爭力的準確度。

Significance

這項研究證實了混合架構在大規模模型中的優勢，顯著提升了長文本處理與代理推理的運算效率。透過開源完整資料集、模型權重及量化檢查點，為學術界與產業開發高效能、低延遲的 AI 應用提供了強大的技術基礎。