AIPress.com.cn報道
12月24日,據官方消息,通義千問發布了新一代語音合成模型Qwen3-TTS,并同步推出兩款核心模型:音色創造模型 Qwen3-TTS-VD-Flash與音色克隆模型 Qwen3-TTS-VC-Flash。相比傳統 TTS 產品主要依賴預設音色或簡單復刻,Qwen3-TTS 將語音能力進一步擴展到“音色設計”層面。
在音色創造方面,Qwen3-TTS-VD-Flash 支持通過復雜自然語言指令直接定義聲音特征。用戶不僅可以描述音色本身,還可對韻律、情感、語氣、人設等進行精細化控制,實現從“說什么”到“如何說”的全面調控。這種方式使語音生成不再局限于已有音色或固定模板,而是可以按需求“創造聲音”。
評測數據顯示,在InstructTTS-eval中,Qwen3-TTS的綜合表現顯著優于 GPT-4o-mini-tts 和 Mimo-audio-7b-instruct;在角色扮演測試中,其表現也超過 Gemini-2.5-pro-preview-tts,體現出更強的可控性和一致性。
在音色克隆能力上,Qwen3-TTS 支持3 秒級音色克隆,并可基于克隆音色生成中文、英文、德語、意大利語、葡萄牙語、西班牙語、日語、韓語、法語、俄語等10 種主流語言。在 MiniMax TTS Multilingual Test Set 上,該模型在多語種內容穩定性和平均詞錯誤率(WER)指標上,整體優于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。
兩款模型均強調高表現力與穩定性。Qwen3-TTS 可根據文本語義自動調整語氣與節奏,在長文本、多角色對話等復雜場景中,保持自然、生動的擬人化表達。同時,其文本解析能力覆蓋復雜結構和非規范化輸入,在實際應用中具備較高魯棒性。
Qwen3-TTS 支持將已創建的音色進行持久化存儲與重復調用,可用于多輪、多角色的長篇對話生成,為數字人、虛擬客服、內容創作等場景提供更靈活的語音底層能力。目前,相關模型已通過阿里云 Model Studio 提供 API 接口,面向開發者開放使用。











