NVIDIA 多模態模型 Nemotron 3 Nano Omni 登陸 AWS：低延遲 AI 代理的新里程碑

NVIDIA 與 AWS 合作，將全新的多模態模型 Nemotron 3 Nano Omni 引進 SageMaker。該模型透過統一架構整合影音、圖片與文字處理，有效縮短企業級 AI 代理的反應延遲。

NVIDIA 最近在 Amazon SageMaker JumpStart 平台上正式推出了 Nemotron 3 Nano Omni 模型，這標誌著多模態 AI 技術進入了更輕量化且高效能的階段。這款模型擁有 300 億總參數，但透過 MoE（混合專家）架構設計，運作時僅需 30 億動態參數，這讓它在處理複雜任務時能保有優異的執行速度。

過去開發者在建立能夠「看、聽、讀」的 AI 代理系統時，通常必須將多個獨立模型——如語音識別、影像分析和語言模型——串聯在一起。這種「拼湊式」的作法不僅增加了系統架構的複雜度，更因為多次推論導致顯著的延遲，難以滿足即時互動的需求。Nemotron 3 Nano Omni 的出現改變了這個現狀，它在單一架構中整合了 Nemotron 3 Nano 語言核心、CRADIO v4-H 視覺編碼器以及 Parakeet 語音編碼器，讓企業能在單次推論過程中完成跨媒體的理解與推理。

這項發展對產業具備實質的影響力。由於該模型支援 131K 的超長上下文長度，並具備鏈式思考（CoT）、工具呼叫（Tool Calling）與結構化 JSON 輸出等功能，非常適合整合進現有的企業軟體流程中。例如，在自動化客服或智慧工廠場景，模型可以同時理解產品照片、錄音檔以及過往的維修文字記錄，並給出精準的決策建議。

此外，NVIDIA 提供 FP8 精度的優化版本，顯著降低了硬體門檻，這對許多正在評估數位轉型成本的台灣企業來說極具吸引力。這不僅是技術規格的提升，更代表 AI 代理從「多個模組堆疊」轉向「原生多模態」的架構整合。透過 AWS SageMaker 的部署便利性，開發者無需處理繁瑣的底層架構，即可快速將這類進階的推理能力導入到實際的應用程式中，對於推動企業級 AI 應用落地具有關鍵的催化作用。