阿里通義實驗室近期在音頻技術領域取得了突破性進展,正式推出了名為ThinkSound的音頻生成模型,并宣布將其開源。這一創新之舉標志著音頻生成技術邁入了一個全新的階段,特別是將思維鏈(CoT)技術首次應用于音頻生成領域。
據通義語音團隊介紹,傳統的視頻轉音頻(V2A)技術往往難以精準捕捉視覺與聲音之間的時空關聯,導致生成的音頻與視頻中的關鍵事件存在錯位現象。而ThinkSound模型則通過引入結構化推理機制,模擬人類音效師的工作流程,有效解決了這一問題。它首先理解視頻的整體畫面與場景語義,然后聚焦于具體的聲源對象,最終響應用戶的編輯指令,逐步生成高保真且與視頻同步的音頻。
為了訓練ThinkSound模型,通義語音團隊構建了首個支持鏈式推理的多模態音頻數據集AudioCoT。該數據集包含了超過2531小時的高質量樣本,涵蓋了豐富的場景,并特別設計了面向交互編輯的對象級和指令級數據。ThinkSound模型由兩個核心部分組成:一個多模態大語言模型負責“思考”推理鏈,而另一個統一音頻生成模型則負責“輸出”聲音。
在多項權威測試中,ThinkSound模型的表現均優于現有的主流方法,這充分證明了其技術的先進性和實用性。目前,該模型已經正式開源,開發者可以在GitHub、Hugging Face以及魔搭社區等平臺上獲取相關的代碼和模型文件。這一舉措無疑將為音頻生成技術的發展注入新的活力,推動相關領域的研究和應用不斷向前邁進。
對于未來,雖然未具體提及拓展計劃,但ThinkSound模型在游戲、虛擬現實(VR)/增強現實(AR)等沉浸式場景中的應用前景被廣泛看好。隨著技術的不斷成熟和完善,相信它將為用戶帶來更加真實、生動的音頻體驗。