Problem
大型語言模型在執行複雜的代理推理任務時,常面臨運算資源消耗過大與推論延遲過高的困境,現有架構難以在模型參數規模、運算精度與推論效能之間達成理想的平衡。
Method
研發團隊推出了 Nemotron 3 Super,這是一座擁有 1,200 億參數(活躍參數 120 億)的混合 Mamba-Attention MoE 模型。該模型首度採用 NVFP4 精度進行預訓練,利用 LatentMoE 架構優化每單位 FLOP 的準確度,並加入 MTP 層以支援原生投機解碼技術來加速推論過程。
Results
模型經過 25 兆個 token 的預訓練與強化學習微調,可支援高達 1M 的上下文長度。在基準測試中,其推論吞吐量分別較 GPT-OSS-120B 與 Qwen3.5-122B 提升了 2.2 倍與 7.5 倍,且在常見評測集上展現出極具競爭力的準確度。
Significance
這項研究證實了混合架構在大規模模型中的優勢,顯著提升了長文本處理與代理推理的運算效率。透過開源完整資料集、模型權重及量化檢查點,為學術界與產業開發高效能、低延遲的 AI 應用提供了強大的技術基礎。