滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

阿里通義實驗室開源音頻生成新模型ThinkSound，引領V2A技術革新

時間：2025-07-05 16:07:37 來源：鳳凰網科技編輯：快訊團隊 IP：北京 發表評論無障礙通道

阿里巴巴旗下的通義實驗室近期在音頻技術領域邁出了重要一步，正式推出了其首個開源音頻生成模型——ThinkSound。這一創新模型的最大亮點在于，它將思維鏈（CoT）技術首次融入音頻生成過程，意在克服現有視頻轉音頻（V2A）技術在理解和表達視頻動態細節及事件邏輯方面的局限。

據通義語音團隊詳細介紹，傳統的V2A技術往往難以精確捕捉視頻畫面與聲音之間的時空對應關系，導致生成的音頻與視頻中的關鍵事件無法準確同步。而ThinkSound通過引入一種結構化的推理機制，模擬了人類音效師的工作流程：首先，它理解視頻的整體內容和場景語義；接著，聚焦于具體的聲源對象；最后，根據用戶的編輯指令，逐步生成高度逼真且與視頻內容同步的音頻。

為了訓練這一先進的模型，通義實驗室構建了一個名為AudioCoT的多模態音頻數據集，這是首個支持鏈式推理的數據集。該數據集包含了超過2531小時的高質量樣本，涵蓋了多種場景，并特別設計了面向交互編輯的對象級和指令級數據。ThinkSound模型本身由兩部分組成：一個多模態大語言模型，負責進行“思考”和推理鏈的構建；以及一個統一的音頻生成模型，負責“輸出”最終的聲音。

據悉，ThinkSound在多個權威測試中均展現出了優于現有主流方法的表現。目前，該模型已經面向開發者開源，他們可以在GitHub、Hugging Face和魔搭社區等平臺上獲取相關的代碼和模型。這一開源舉措無疑將促進音頻生成技術的進一步發展和創新，同時也為游戲、虛擬現實（VR）、增強現實（AR）等沉浸式應用場景提供了更多可能性。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

五闖港交所，立志沖刺中國快餐第一股的老鄉雞能成嗎？

07-15

中國最大駕校，老板徹底涼涼了？

07-15

蔚來股價單日大漲10%，樂道L90起售價27.99萬元超預期，李斌：還有毛利

07-15

哪些省、市、區，上市公司最密集？

07-15

科創板重磅文件出爐！釋放哪些信號？

07-15

娃哈哈200億遺產混戰：撕破臉對簿公堂，不如坐下分蛋糕？

07-15

連續4年造假，觸及重大違法強制退市！董事長已被立案

07-15

鍋圈、錢大媽、零食很忙的“萬店”是怎樣煉成的？| 幕后投資大佬深度分享

07-15

35家A股上市銀行年度分紅密集落地

07-15

白酒首份中報，開了個壞頭

07-15

“20CM”漲停！凈利潤同比預增超300%，大牛股新易盛3個月股價漲2倍

07-15

用友東軟掌門人交替：一個重披戰甲一個轉身幕后

07-15

省內依賴度高達84%！高端動銷乏力，口子窖“百億夢”遭遇強阻？

07-15

07-15

07-15

全站最新

蔚來股價單日大漲10%，樂道L90起售價27.99萬元超預期，李斌：還有毛利

哪些省、市、區，上市公司最密集？

科創板重磅文件出爐！釋放哪些信號？

娃哈哈200億遺產混戰：撕破臉對簿公堂，不如坐下分蛋糕？

連續4年造假，觸及重大違法強制退市！董事長已被立案

熱門內容

本欄最新

科創板重磅文件出爐！釋放哪些信號？

娃哈哈200億遺產混戰：撕破臉對簿公堂，不如坐下分蛋糕？

連續4年造假，觸及重大違法強制退市！董事長已被立案

鍋圈、錢大媽、零食很忙的“萬店”是怎樣煉成的？| 幕后投資大佬深度分享

35家A股上市銀行年度分紅密集落地

白酒首份中報，開了個壞頭

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

阿里通義實驗室開源音頻生成新模型ThinkSound，引領V2A技術革新

日本精品一区二区三区高清久久