稀宇科技(MiniMax)近期在語音合成技術(shù)領(lǐng)域取得了顯著成就,其Speech-02模型在Artificial Analysis排行榜上穩(wěn)居榜首,彰顯了公司的全球領(lǐng)先地位。更令人興奮的是,該公司正式推出了Voice Design音色設(shè)計(jì)功能,這一創(chuàng)新技術(shù)允許用戶通過自然語言描述來定制個(gè)性化音色,實(shí)現(xiàn)了語言、口音與音色的全方位自定義。
Voice Design功能的核心優(yōu)勢(shì)在于其高度的靈活性和精確性。據(jù)稀宇科技介紹,該功能能夠細(xì)致調(diào)控音色的多個(gè)關(guān)鍵要素,涵蓋音頻質(zhì)量、發(fā)聲特性、情感表達(dá)以及特定的人物形象。用戶只需簡(jiǎn)單輸入一段描述性文本,系統(tǒng)即可智能解析并生成與之匹配的音色編碼。例如,用戶可以要求一個(gè)充滿正能量的AI助手聲音,或是尋求一個(gè)嚴(yán)厲而語速快捷的女聲,Voice Design都能迅速滿足這些個(gè)性化需求。
為了直觀展示Voice Design的強(qiáng)大功能,稀宇科技提供了多個(gè)音色示例,包括古代俠客的正直洪亮聲、懸疑故事播音員的低沉磁性聲、權(quán)威新聞女主播的清晰利落聲,以及推銷員特有的活力語速聲。這些多樣化的音色不僅證明了Voice Design在音色定制方面的卓越能力,也體現(xiàn)了其在滿足不同應(yīng)用場(chǎng)景需求上的靈活性。
稀宇科技強(qiáng)調(diào),Voice Design的推出有效解決了語音合成領(lǐng)域面臨的兩大難題。一方面,傳統(tǒng)音色庫(kù)往往難以覆蓋細(xì)分市場(chǎng)的多樣化需求;另一方面,復(fù)刻真實(shí)人物音色不僅存在版權(quán)風(fēng)險(xiǎn),而且操作過程復(fù)雜繁瑣。而Voice Design則為用戶提供了一種無需高質(zhì)量輸入素材即可快速生成理想音色的解決方案,并且這些音色可以保存下來,用于后續(xù)的音頻創(chuàng)作。
稀宇科技的兩代Speech模型已經(jīng)累計(jì)生成了超過1.5億小時(shí)的語音內(nèi)容,并與全球超過30個(gè)國(guó)家的客戶建立了合作關(guān)系。此次Voice Design功能的上線,標(biāo)志著稀宇科技在語音技術(shù)領(lǐng)域的又一次重大突破,也彰顯了其致力于為全球用戶提供更加便捷、高效語音解決方案的堅(jiān)定承諾。
現(xiàn)在,用戶可以通過稀宇科技的國(guó)內(nèi)版平臺(tái)(minimaxi.com/audio)或海外版平臺(tái)(minimax.io/audio)親身體驗(yàn)Voice Design功能,探索語音合成的無限創(chuàng)意與可能。