Voxtral TTS：僅需 3 秒音檔即可實現高擬真多語系語音合成，表現優於業界標竿 ElevenLabs

本文介紹 Voxtral TTS 模型，結合混合式架構與創新編解碼技術，僅需極短參考音檔即可生成自然且具表現力的多語系語音，並釋出模型權重供非商業用途使用。

Problem

目前的文字轉語音（TTS）模型在多語系環境下，往往難以僅憑極短的參考音訊就達成高擬真度、情感表現力強且自然的人聲複製，且現有架構在平衡生成效率與音質上仍有改進空間。

Method

Voxtral TTS 採用混合架構，結合「自動回歸（AR）」生成語意語音標記（Semantic Tokens）與「流匹配（Flow-matching）」生成聲學標記（Acoustic Tokens）。其核心為從零訓練的 Voxtral Codec，並導入 VQ-FSQ 混合量化方案來優化編解碼過程。

Results

經母語使用者的人性化評估，Voxtral TTS 在多語系語音複製的自然度與表現力上，相較於知名商業模型 ElevenLabs Flash v2.5 取得了高達 68.4% 的勝率，證明其僅需 3 秒音訊即可完成高品質複製。

Significance

此研究證明了結合自動回歸與流匹配技術在語音合成上的優勢。透過釋出 CC BY-NC 授權的模型權重，研究團隊顯著降低了開發者獲取高品質、具表現力的多語系語音合成技術的門檻。