日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

英偉達與MIT合作推出Audio-SDS:AI音效生成迎來參數化控制新突破

   時間:2025-05-13 14:29:39 來源:ITBEAR編輯:快訊團隊 發表評論無障礙通道

近日,科技界傳來一項新的合作成果,英偉達與麻省理工學院(MIT)攜手推出了Audio-SDS技術,這是一項基于文本條件的音頻擴散模型擴展技術,為音頻生成領域帶來了新突破。

音頻擴散模型在近年來憑借其生成高質量音頻的能力備受矚目。然而,這類模型的一個顯著局限在于難以對明確且可解釋的參數進行優化,這限制了其在實際應用中的靈活性和廣泛性。

為了克服這一挑戰,英偉達與MIT的科研團隊首次將Score Distillation Sampling(SDS)方法引入到音頻領域。他們結合了預訓練模型的強大生成能力與參數化音頻表示,從而無需依賴大規模特定數據集,即可應用于FM合成器參數校準、物理沖擊音合成以及音源分離等三大關鍵任務。

SDS技術此前已在文本生成3D圖像和圖像編輯領域得到了廣泛應用。英偉達此次將SDS技術與音頻生成相結合,推出了Audio-SDS。該技術能夠利用預訓練模型的先驗知識,直接根據高級文本提示調整FM合成參數、沖擊音模擬器或分離掩碼,從而實現了更加靈活和精準的音頻生成。

在實驗中,研究團隊采用了基于解碼器的SDS、多步去噪以及多尺度頻譜圖等方法。實驗結果表明,Audio-SDS在主觀聽覺測試和客觀指標(如CLAP分數、信號失真比SDR)上均展現出了卓越的性能。

Audio-SDS的一大創新之處在于,它僅需一個預訓練模型即可支持多種音頻任務,從而極大地降低了對大規模領域特定數據集的依賴。這一特性使得Audio-SDS在音頻生成領域具有更廣泛的應用前景。

然而,研究團隊也指出了Audio-SDS目前仍面臨的一些挑戰,包括模型覆蓋范圍有限、潛在編碼偽影以及優化敏感性等問題。他們表示,未來將繼續致力于解決這些問題,以進一步提升Audio-SDS的性能和應用范圍。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 长丰县| 合肥市| 南宫市| 方正县| 莱阳市| 泽普县| 长武县| 奇台县| 高陵县| 蕉岭县| 莲花县| 弋阳县| 博白县| 仪征市| 临汾市| 景德镇市| 东辽县| 手机| 东乌珠穆沁旗| 冀州市| 龙海市| 马公市| 宁夏| 泊头市| 黄山市| 平昌县| 大厂| 周至县| 扶绥县| 房山区| 安吉县| 中西区| 伊川县| 景德镇市| 奇台县| 武宁县| 甘孜县| 石阡县| 广河县| 龙泉市| 运城市|