國(guó)內(nèi)AI領(lǐng)域迎來(lái)突破性進(jìn)展——階躍星辰(StepStepFun AI)近日推出全球首個(gè)LLM級(jí)音頻編輯模型Step-Audio-EditX,以自然語(yǔ)言指令驅(qū)動(dòng)語(yǔ)音編輯的創(chuàng)新模式,徹底打破傳統(tǒng)音頻制作的技術(shù)壁壘。用戶通過(guò)簡(jiǎn)單指令如“將語(yǔ)氣調(diào)整為東北喜劇腔調(diào)”或“在結(jié)尾添加3秒羞澀笑聲”,即可實(shí)現(xiàn)音色、情感、節(jié)奏的精準(zhǔn)調(diào)控,讓語(yǔ)音編輯變得像修改文字一樣直觀。
該模型的核心競(jìng)爭(zhēng)力源于其獨(dú)特的參數(shù)壓縮技術(shù)。研發(fā)團(tuán)隊(duì)將原始130億參數(shù)的模型壓縮至30億規(guī)模,在降低90%部署成本的同時(shí),性能指標(biāo)實(shí)現(xiàn)逆勢(shì)提升。其零樣本語(yǔ)音克隆功能僅需10秒?yún)⒖家纛l,即可高精度復(fù)現(xiàn)目標(biāo)音色;多輪迭代編輯特性支持用戶通過(guò)“再增加20%語(yǔ)速”“強(qiáng)化憤怒情緒”等細(xì)化指令,逐步逼近理想效果。
在中文語(yǔ)境適配方面,Step-Audio-EditX展現(xiàn)出顯著優(yōu)勢(shì)。模型深度理解普通話、四川話、粵語(yǔ)及英語(yǔ)的方言特質(zhì),能自然呈現(xiàn)川渝方言的市井幽默感、粵語(yǔ)語(yǔ)氣詞的微妙情感變化。第三方盲測(cè)顯示,其方言表現(xiàn)力評(píng)分較同類(lèi)產(chǎn)品高出17%,情感傳遞準(zhǔn)確率達(dá)93.7%,音色還原度達(dá)98.1%,在自然度、情感表達(dá)、音色保真三大維度全面領(lǐng)先Minimax、字節(jié)跳動(dòng)Doubao等閉源方案。
技術(shù)突破正催生多元化應(yīng)用場(chǎng)景。短視頻創(chuàng)作者可一鍵切換“霸道總裁”“軟萌學(xué)妹”等個(gè)性化聲線;有聲書(shū)制作實(shí)現(xiàn)單人演繹多角色情感對(duì)話;方言內(nèi)容通過(guò)AI轉(zhuǎn)譯可快速適配國(guó)際市場(chǎng),如將四川話脫口秀轉(zhuǎn)化為美式喜劇風(fēng)格;聽(tīng)障群體的語(yǔ)音合成系統(tǒng)首次具備情感溫度,告別機(jī)械刻板的表達(dá)方式。
行業(yè)分析師指出,Step-Audio-EditX重新定義了音頻內(nèi)容的生產(chǎn)范式。當(dāng)語(yǔ)音從“一次性錄制”轉(zhuǎn)變?yōu)榭煞磸?fù)雕琢的動(dòng)態(tài)文本,創(chuàng)作者將獲得前所未有的表達(dá)自由。目前該模型已開(kāi)放線上體驗(yàn)入口(https://stepaudiollm.github.io/step-audio-editx/),若未來(lái)通過(guò)API接口或手機(jī)系統(tǒng)集成,這項(xiàng)“語(yǔ)音魔法工具”有望成為全民創(chuàng)作的標(biāo)配。










