Problem
目前的文字轉語音(TTS)模型在多語系環境下,往往難以僅憑極短的參考音訊就達成高擬真度、情感表現力強且自然的人聲複製,且現有架構在平衡生成效率與音質上仍有改進空間。
Method
Voxtral TTS 採用混合架構,結合「自動回歸(AR)」生成語意語音標記(Semantic Tokens)與「流匹配(Flow-matching)」生成聲學標記(Acoustic Tokens)。其核心為從零訓練的 Voxtral Codec,並導入 VQ-FSQ 混合量化方案來優化編解碼過程。
Results
經母語使用者的人性化評估,Voxtral TTS 在多語系語音複製的自然度與表現力上,相較於知名商業模型 ElevenLabs Flash v2.5 取得了高達 68.4% 的勝率,證明其僅需 3 秒音訊即可完成高品質複製。
Significance
此研究證明了結合自動回歸與流匹配技術在語音合成上的優勢。透過釋出 CC BY-NC 授權的模型權重,研究團隊顯著降低了開發者獲取高品質、具表現力的多語系語音合成技術的門檻。