美國語音生成領域迎來重要突破——初創企業Cartesia正式推出新一代語音模型Sonic-3,并宣布完成1億美元戰略融資,英偉達成為核心投資方。這款采用非Transformer架構的模型,憑借其低延遲特性在實時語音交互領域引發關注,數千家企業已將其應用于每月數百萬次的對話處理。
技術團隊構成堪稱"學術全明星":由5位斯坦福AI實驗室研究員創立的Cartesia,其核心成員包括Mamba架構主要開發者Albert Gu、前谷歌大腦工程師Brandon Yang,以及擁有斯坦福與卡內基梅隆雙重學術背景的CEO Karan Goel。團隊將狀態空間模型(SSM)研究成果轉化為商業應用,Albert Gu更憑借技術貢獻入選《時代》雜志2024年全球影響力人物榜單。
與傳統Transformer模型不同,Sonic-3采用的SSM架構通過持續理解對話脈絡實現高效預測。實測顯示,該模型中文生成響應時間僅2秒,雖流暢度待提升,但英文表現已達自然水準,紀錄片旁白測試中幾乎無法分辨AI痕跡。其90毫秒的模型延遲與190毫秒內端到端響應,使系統躋身全球最快實時語音AI之列。
功能層面,Sonic-3支持42種語言與500余種音色選擇,中文提供10種聲線,英文細分為11種地域口音。通過API參數與SSML標簽,用戶可精確控制音量、語速及情感表達,甚至實現笑聲、語調等微妙情感轉換。新增的語音克隆功能支持微調,使生成語音更貼近參考原聲,自動緩沖技術則顯著提升實時交互的流暢性。
商業應用方面,Cartesia構建的企業級平臺集成文本轉語音(Sonic)與語音轉文本(Ink)模型,支持客戶構建具備復雜任務處理能力的語音Agent。ServiceNow等企業已將其用于客戶支持、日程管理等場景,產品副總裁Ravi Krishnamurthy評價稱:"SSM架構為企業級應用帶來了前所未有的速度與質量。"
融資進程顯示市場高度認可:2024年12月獲Index Ventures領投的2700萬美元種子輪融資后,僅隔3個月便完成6400萬美元A輪融資。此次1億美元戰略融資將加速技術迭代,在MiniMax、ElevenLabs等競爭對手環伺的AI音頻生成賽道,Cartesia正以SSM架構開辟差異化競爭路徑。











