打造零時差語音 AI：Amazon SageMaker 支援雙向串流，實現毫秒級即時辨識

AWS 宣布 SageMaker AI 支援雙向串流推論，並整合 vLLM 的 Realtime API。這讓開發者能部署如 Mistral Voxtral 等模型，解決傳統推論模式的延遲問題，實現真正的即時語音互動。

語音 AI 的演進正從「有延遲的對答」轉向「真正的即時互動」。過去，開發者在雲端環境部署語音轉文字（STT）或語音助理時，主要受限於傳統的「請求-回應」模式。這意味著系統必須接收到一段完整的音檔後，才能開始進行推論處理。對於需要極高流暢度的即時字幕、客服中心分析或輔助工具來說，這種處理機制產生的延遲，往往會破壞使用者體驗的連貫性。

AWS 最近針對 Amazon SageMaker AI 推出的雙向串流（Bidirectional Streaming）推論功能，正是為了解決這個通訊瓶頸。這項更新讓用戶端與模型容器之間能建立持久性的 WebSockets 連線。搭配推論引擎 vLLM 的 Realtime API，開發者現在能一邊上傳音訊串流，一邊同步接收回傳的辨識結果。這種「雙向同時傳輸」的模式，讓語音處理從「批次處理」轉化為真正的「流動處理」，大幅縮短了從音訊輸入到文字輸出的時間差。

這項整合將對產業應用產生顯著影響。以 Mistral AI 釋出的小型化即時語音模型 Voxtral-Mini-4B 為例，這類模型在 SageMaker 的全代管環境中部署，能有效平衡效能與成本。對於開發團隊而言，這降低了建構低延遲系統的門檻。原本需要自行維護複雜網路通訊協定與負載平衡的工作，現在可以透過 AWS 託管服務輕鬆完成，讓團隊能更專注於模型微調與產品邏輯的開發。

長遠來看，這項技術的價值在於它定義了下一代生成式 AI 應用的互動標準。當 AI 模型具備了即時處理影音串流的能力，它就不再只是處理靜態文件的工具，而是能真正融入遠端醫療、即時翻譯與自動化導航等動態場景。這標誌著語音 AI 進入了「零時差」時代，不僅提升了企業的服務品質，也為無障礙技術開闢了更多可能性，讓 AI 互動變得如同真人對話般自然流暢。