訊 7月4日,阿里通義實驗室宣布開源首個音頻生成模型ThinkSound。該模型首次將思維鏈(CoT)技術應用于音頻生成領域,旨在解決現有視頻轉音頻(V2A)技術對畫面動態細節和事件邏輯理解不足的問題。
根據通義語音團隊介紹,傳統V2A技術常難以精確捕捉視覺與聲音的時空關聯,導致生成音頻與畫面關鍵事件錯位。ThinkSound通過引入結構化推理機制,模仿人類音效師的分析過程:首先理解視頻整體畫面與場景語義,再聚焦具體聲源對象,最后響應用戶編輯指令,逐步生成高保真且同步的音頻。
圖源:通義大模型微信公眾號
為訓練模型,團隊構建了首個支持鏈式推理的多模態音頻數據集AudioCoT,包含超2531小時高質量樣本,覆蓋豐富場景,并設計了面向交互編輯的對象級和指令級數據。ThinkSound由一個多模態大語言模型(負責“思考”推理鏈)和一個統一音頻生成模型(負責“輸出”聲音)組成。
ThinkSound 音頻生成模型的工作流
據悉,ThinkSound在多項權威測試中表現優于現有主流方法。該模型現已開源,開發者可在GitHub、Hugging Face、魔搭社區獲取代碼和模型。未來將拓展其在游戲、VR/AR等沉浸式場景的應用。
以下附上開源地址:
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound