日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

阿里通義ThinkSound音頻生成模型開源:讓AI“聽懂畫面”,打破靜音局限

   時間:2025-07-05 19:44:47 來源:ITBEAR編輯:快訊團隊 IP:北京 發(fā)表評論無障礙通道

阿里通義實驗室近日在其官方公眾號上宣布了一項重要進展:其首個音頻生成模型ThinkSound已正式對外開放源代碼,這一創(chuàng)新有望顛覆以往“靜默畫面”的創(chuàng)作邊界。

ThinkSound在音頻生成領域首次引入了CoT(思維鏈)技術,使AI能夠邏輯清晰地理解畫面事件與聲音之間的關聯(lián),從而生成高保真、高度同步的空間音頻。這不僅僅是“為圖配音”,而是讓AI真正“理解畫面并配音”。

為了訓練出能夠“邏輯聆聽”的AI,通義實驗室的語音團隊精心打造了AudioCoT數(shù)據(jù)集,這是首個支持鏈式推理的多模態(tài)音頻數(shù)據(jù)集。AudioCoT匯集了來自VGGSound、AudioSet、AudioCaps、Freesound等多個平臺的2531.8小時高質量音頻樣本,涵蓋了從動物叫聲到機械運轉、環(huán)境音效等多種真實場景,為模型提供了廣泛的訓練素材。

為了確保數(shù)據(jù)集的質量,研究團隊實施了一套嚴格的數(shù)據(jù)篩選流程,包括多階段的自動化質量檢查和至少5%的人工抽樣驗證,以確保每一條數(shù)據(jù)都能有效支持AI的結構化推理能力。AudioCoT還設計了面向交互式編輯的對象級和指令級樣本,以滿足ThinkSound在后續(xù)細化與編輯功能上的需求。

ThinkSound由兩大核心組件構成:一個是擅長“思考”的多模態(tài)大語言模型(MLLM),另一個是專注于“聽覺輸出”的統(tǒng)一音頻生成模型。這兩個模塊的協(xié)同工作,使得系統(tǒng)能夠分階段解析畫面內容,并最終生成與畫面精確匹配的音頻效果。這一過程包括理解整體畫面、聚焦具體物體以及響應用戶指令三個階段。

據(jù)官方介紹,盡管近年來端到端視頻到音頻(V2A)生成技術取得了長足進步,但在捕捉畫面動態(tài)細節(jié)和空間關系方面仍存在挑戰(zhàn)。例如,貓頭鷹何時鳴叫、何時起飛,以及樹枝晃動時是否伴隨摩擦聲等視覺與聲學之間的關聯(lián),往往被忽視,導致生成的音頻過于泛化,甚至與關鍵視覺事件不匹配,無法滿足專業(yè)創(chuàng)意場景中對時序和語義連貫性的高要求。

這一問題的核心在于,AI缺乏對畫面事件的結構化理解,無法像人類音效師那樣逐步分析、推理并合成聲音。而ThinkSound的推出,正是為了解決這一難題,推動音頻生成技術邁向新的高度。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網(wǎng)站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 哈尔滨市| 湖口县| 正镶白旗| 丰顺县| 长垣县| 福贡县| 西乌| 淳安县| 锡林浩特市| 遂平县| 临邑县| 宜兰县| 宁武县| 通道| 澎湖县| 怀安县| 南和县| 顺义区| 青田县| 广宗县| 浦北县| 富裕县| 弥渡县| 大安市| 遂溪县| 阳曲县| 桃园县| 隆昌县| 隆德县| 屯昌县| 永仁县| 岗巴县| 鄂托克前旗| 万荣县| 苍山县| 确山县| 禹州市| 四会市| 涿州市| 镇平县| 桐城市|