通義千問近日正式推出新一代語音合成技術Qwen3-TTS,并同步上線兩款創新模型:音色創造模型Qwen3-TTS-VD-Flash與音色克隆模型Qwen3-TTS-VC-Flash。這項突破性技術將傳統語音合成從“復刻聲音”升級為“設計聲音”,為用戶提供前所未有的語音創作自由度。
在音色設計領域,Qwen3-TTS-VD-Flash實現了自然語言驅動的精細化控制。用戶可通過文本指令同時調節音色基底、情感表達、語速節奏甚至角色特征,例如指定“帶有磁性嗓音的年輕男性用歡快語氣講述童話故事”。這種多維調控能力使語音生成突破了預設音色的限制,真正實現“按需定制”。第三方評測顯示,該模型在InstructTTS-eval基準測試中綜合得分領先GPT-4o-mini-tts和Mimo-audio-7b-instruct,角色扮演場景下的表現更超越Gemini-2.5-pro-preview-tts。
針對音色克隆需求,Qwen3-TTS-VC-Flash展現出驚人的技術突破。僅需3秒原始音頻樣本,即可完成高保真音色克隆,并支持中、英、日、韓、法、德、西、意、葡、俄等十種語言的跨語種輸出。在MiniMax多語種測試集中,該模型在語音穩定性和詞錯誤率(WER)兩項核心指標上均優于MiniMax、ElevenLabs及GPT-4o-Audio-Preview等主流方案。
技術團隊特別強化了模型的場景適應能力。通過語義理解引擎,系統能自動匹配文本情緒調整語音特征,在長篇敘述或多人對話場景中保持自然流暢的擬人化表達。其文本解析模塊可處理復雜句式和非規范輸入,確保在真實應用環境中保持穩定輸出。例如在數字人直播場景中,系統能同時管理多個角色的語音特征,實現無縫切換。
為提升實用價值,開發團隊構建了音色管理系統,支持用戶將定制音色保存至云端庫,實現跨項目復用。這項功能特別適用于需要持續語音輸出的場景,如虛擬客服的長期服務或系列有聲內容的制作。目前相關技術已通過阿里云Model Studio開放API接口,開發者可快速集成至各類應用中,為智能交互、內容生產等領域注入新的語音能力。












