近日,國內AI語音領域迎來了一次重大突破,上海大模型獨角獸企業MiniMax旗下的Speech-02語音模型在全球兩大權威語音基準測評中脫穎而出,力壓OpenAI及知名AI語音企業ElevenLabs的模型,斬獲多項SOTA(最優)成績。
據悉,Speech-02不僅在字錯率(WER)和相似度(SIM)等關鍵指標上實現了與真人無異的表現,甚至在某些方面超越了真人水平。其強大的泛化能力更是令人矚目,支持超過30種語言、多種口音及情緒化語音的個性化定制。這一成就得益于MiniMax在數據處理和模型架構上的創新。
Speech-02的性價比也極具競爭力。其每百萬字符輸出價格僅為50美元,不到ElevenLabs的四分之一,實現了性能與成本的完美平衡,加速了AI語音技術的商業化進程。目前,以Speech-02為代表的MiniMax語音交互模型已受到多家行業頭部企業和新興創新企業的青睞,商業化進展迅速。
近年來,AI語音技術逐漸從實驗室走向實際應用,在教育、娛樂、智能家居等多個領域取得了顯著成果。在教育領域,高途等企業利用新一代AI語音技術,推出了個性化的AI語言陪練系統,極大地提升了用戶體驗。而在有聲書領域,閱文旗下的起點讀書則通過定制化音色,贏得了用戶的廣泛好評。這些企業之所以能在語音交互技術上取得突破,離不開MiniMax等技術支持者的助力。
在今年的CES展會上,MiniMax的語音技術更是大放異彩。通過接入MiniMax的語音模型,躍然創新推出的AI語音掛件BubblePal在展會上一炮而紅。這款小掛件能讓普通毛絨玩具具備自然對話能力,還能根據兒童喜歡的卡通人物復刻音色,讓孩子與卡通人物進行沉浸式對話。同樣,愛小伴AI玩伴機器人也通過MiniMax的語音生成技術,打造了“會說話的AI奶龍”,為用戶帶來了全新的互動體驗。
MiniMax的語音技術不僅適用于陪伴類AI硬件,還能在AI教育硬件、智能座艙等更廣泛的領域發揮作用。這些具備強交互、定制化體驗的AI硬件,正好切中了消費者對智能交互類產品日益增長的需求。例如,聽力熊團隊在其AI教育硬件上接入了MiniMax語音模型,為用戶提供了更為豐富的學習互動體驗。而北汽集團極狐汽車則在智能座艙中搭載了多款MiniMax大模型,為用戶提供了及時響應的問答服務。
MiniMax的成功并非偶然。在其發布的Speech-02模型技術報告中,我們可以窺見其在技術上的深厚積累。Speech-02采用了自回歸Transformer架構,并創新性地使用了“會學習的音色提取器”,實現了高質量、靈活的聲音表達。同時,Flow-VAE模型的加入也讓語音模型能夠學會更自然、更多樣的音頻細節特征。這些技術創新共同構成了Speech-02的強大競爭力。