近期,Stability AI攜手Arm共同揭曉了一款革命性的文本轉(zhuǎn)音頻模型——“穩(wěn)定音頻開放小型”。這款模型以其緊湊高效的設(shè)計,能夠在短短7秒內(nèi)創(chuàng)造出長達(dá)11秒的高保真立體聲音頻,并且專為在智能手機等便攜設(shè)備上流暢運行而優(yōu)化。
這項技術(shù)的核心突破得益于加州大學(xué)伯克利分校研究團隊的創(chuàng)新成果——“對抗相對對比”(ARC)技術(shù)。在高端硬件平臺,如Nvidia H100 GPU上,該模型的性能更是令人矚目,僅需75毫秒即可完成44kHz立體聲頻的合成,幾乎達(dá)到了實時音頻生成的境界。
相較于去年推出的擁有11億參數(shù)的Stable Audio Open原版,此次發(fā)布的精簡版模型參數(shù)量大幅縮減至3.41億,顯著降低了對計算資源的需求,使其能夠輕松駕馭消費級硬件。這一成就標(biāo)志著Stability AI與Arm自今年3月宣布合作以來的首個重大里程碑。
為了實現(xiàn)在智能手機上的無縫運行,開發(fā)團隊對模型架構(gòu)進行了全面革新,巧妙地將系統(tǒng)劃分為三大核心組件:負(fù)責(zé)壓縮音頻數(shù)據(jù)的自動編碼器、解析文本提示的嵌入模塊,以及生成最終音頻的擴散模型。這一精妙設(shè)計確保了模型在資源受限的環(huán)境下依然能保持高效能。
Stability AI指出,該模型在音效模擬和現(xiàn)場錄音再現(xiàn)方面展現(xiàn)出了卓越的能力,但在音樂創(chuàng)作,特別是歌聲處理上仍存在局限性,且目前主要支持英語文本輸入。盡管如此,其在特定領(lǐng)域內(nèi)的表現(xiàn)已足夠令人印象深刻。
在模型訓(xùn)練過程中,開發(fā)團隊精心挑選了來自Freesound數(shù)據(jù)庫的約472,000個符合CC0、CC-BY或CC-Sampling+許可協(xié)議的音頻片段。通過一系列嚴(yán)格的自動化檢查,確保了訓(xùn)練數(shù)據(jù)的版權(quán)合規(guī)性,有效避免了潛在的版權(quán)爭議。