近日,阿里巴巴云計算的 Qwen 團隊發布了兩款全新的人工智能模型,旨在通過文本指令生成或克隆聲音。其中,Qwen3-TTS-VD-Flash 模型允許用戶根據詳細描述生成聲音,用戶可以精確定義聲音的特征,如情感和說話節奏。
例如,用戶可以請求生成一個 “中年男性,洪亮的男中音 —— 充滿活力的廣告解說,快速的語速,夸張的音調變化,充滿銷售魅力的聲音”。根據制造商的說法,該模型在性能上超過了 OpenAI 最近推出的 GPT-4o mini-tts API。
第二款模型 Qwen3-TTS-VC-Flash,則可以僅通過三秒的音頻復制聲音,并能在十種語言中進行復現。Qwen 聲稱,該模型的錯誤率低于競爭對手,例如 Elevenlabs 或 MiniMax。
該 AI 還能夠處理復雜的文本,模仿動物聲音,并從錄音中提取聲音。兩款模型均可通過阿里巴巴云的 API 訪問,用戶還可以在 Hugging Face 平臺上嘗試設計模型和克隆模型的演示。
劃重點:










