日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

Stable Audio Open Small:手機秒變音頻創(chuàng)作站,7秒生成11秒高質(zhì)量立體聲

   時間:2025-05-19 10:09:03 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

近期,Stability AI攜手Arm共同揭曉了一款革命性的文本轉(zhuǎn)音頻模型——“穩(wěn)定音頻開放小型”。這款模型以其緊湊高效的設(shè)計,能夠在短短7秒內(nèi)創(chuàng)造出長達(dá)11秒的高保真立體聲音頻,并且專為在智能手機等便攜設(shè)備上流暢運行而優(yōu)化。

這項技術(shù)的核心突破得益于加州大學(xué)伯克利分校研究團隊的創(chuàng)新成果——“對抗相對對比”(ARC)技術(shù)。在高端硬件平臺,如Nvidia H100 GPU上,該模型的性能更是令人矚目,僅需75毫秒即可完成44kHz立體聲頻的合成,幾乎達(dá)到了實時音頻生成的境界。

相較于去年推出的擁有11億參數(shù)的Stable Audio Open原版,此次發(fā)布的精簡版模型參數(shù)量大幅縮減至3.41億,顯著降低了對計算資源的需求,使其能夠輕松駕馭消費級硬件。這一成就標(biāo)志著Stability AI與Arm自今年3月宣布合作以來的首個重大里程碑。

為了實現(xiàn)在智能手機上的無縫運行,開發(fā)團隊對模型架構(gòu)進行了全面革新,巧妙地將系統(tǒng)劃分為三大核心組件:負(fù)責(zé)壓縮音頻數(shù)據(jù)的自動編碼器、解析文本提示的嵌入模塊,以及生成最終音頻的擴散模型。這一精妙設(shè)計確保了模型在資源受限的環(huán)境下依然能保持高效能。

Stability AI指出,該模型在音效模擬和現(xiàn)場錄音再現(xiàn)方面展現(xiàn)出了卓越的能力,但在音樂創(chuàng)作,特別是歌聲處理上仍存在局限性,且目前主要支持英語文本輸入。盡管如此,其在特定領(lǐng)域內(nèi)的表現(xiàn)已足夠令人印象深刻。

在模型訓(xùn)練過程中,開發(fā)團隊精心挑選了來自Freesound數(shù)據(jù)庫的約472,000個符合CC0、CC-BY或CC-Sampling+許可協(xié)議的音頻片段。通過一系列嚴(yán)格的自動化檢查,確保了訓(xùn)練數(shù)據(jù)的版權(quán)合規(guī)性,有效避免了潛在的版權(quán)爭議。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
 
主站蜘蛛池模板: 蓬安县| 浦县| 凤翔县| 清水河县| 云南省| 昌邑市| 普洱| 柳河县| 和静县| 海伦市| 鄂伦春自治旗| 武邑县| 安新县| 吉木萨尔县| 昭觉县| 舒兰市| 伊宁市| 正阳县| 涞源县| 高清| 灌阳县| 商南县| 班玛县| 桑日县| 镇巴县| 邢台市| 哈尔滨市| 沿河| 阿坝| 水城县| 鸡西市| 永嘉县| 特克斯县| 苍梧县| 徐水县| 襄垣县| 鹤峰县| 海晏县| 右玉县| 海晏县| 法库县|