阿里通義實驗室近日在其官方公眾號上宣布了一項重要進展:其首個音頻生成模型ThinkSound已正式對外開放源代碼,這一創(chuàng)新有望顛覆以往“靜默畫面”的創(chuàng)作邊界。
ThinkSound在音頻生成領域首次引入了CoT(思維鏈)技術,使AI能夠邏輯清晰地理解畫面事件與聲音之間的關聯(lián),從而生成高保真、高度同步的空間音頻。這不僅僅是“為圖配音”,而是讓AI真正“理解畫面并配音”。
為了訓練出能夠“邏輯聆聽”的AI,通義實驗室的語音團隊精心打造了AudioCoT數(shù)據(jù)集,這是首個支持鏈式推理的多模態(tài)音頻數(shù)據(jù)集。AudioCoT匯集了來自VGGSound、AudioSet、AudioCaps、Freesound等多個平臺的2531.8小時高質量音頻樣本,涵蓋了從動物叫聲到機械運轉、環(huán)境音效等多種真實場景,為模型提供了廣泛的訓練素材。
為了確保數(shù)據(jù)集的質量,研究團隊實施了一套嚴格的數(shù)據(jù)篩選流程,包括多階段的自動化質量檢查和至少5%的人工抽樣驗證,以確保每一條數(shù)據(jù)都能有效支持AI的結構化推理能力。AudioCoT還設計了面向交互式編輯的對象級和指令級樣本,以滿足ThinkSound在后續(xù)細化與編輯功能上的需求。
ThinkSound由兩大核心組件構成:一個是擅長“思考”的多模態(tài)大語言模型(MLLM),另一個是專注于“聽覺輸出”的統(tǒng)一音頻生成模型。這兩個模塊的協(xié)同工作,使得系統(tǒng)能夠分階段解析畫面內容,并最終生成與畫面精確匹配的音頻效果。這一過程包括理解整體畫面、聚焦具體物體以及響應用戶指令三個階段。
據(jù)官方介紹,盡管近年來端到端視頻到音頻(V2A)生成技術取得了長足進步,但在捕捉畫面動態(tài)細節(jié)和空間關系方面仍存在挑戰(zhàn)。例如,貓頭鷹何時鳴叫、何時起飛,以及樹枝晃動時是否伴隨摩擦聲等視覺與聲學之間的關聯(lián),往往被忽視,導致生成的音頻過于泛化,甚至與關鍵視覺事件不匹配,無法滿足專業(yè)創(chuàng)意場景中對時序和語義連貫性的高要求。
這一問題的核心在于,AI缺乏對畫面事件的結構化理解,無法像人類音效師那樣逐步分析、推理并合成聲音。而ThinkSound的推出,正是為了解決這一難題,推動音頻生成技術邁向新的高度。