日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

通義AI“音效師”:阿里開源首個音頻模型ThinkSound

   時間:2025-07-04 20:26:33 來源:鳳凰網科技編輯:快訊團隊 IP:北京 發表評論無障礙通道

訊 7月4日,阿里通義實驗室宣布開源首個音頻生成模型ThinkSound。該模型首次將思維鏈(CoT)技術應用于音頻生成領域,旨在解決現有視頻轉音頻(V2A)技術對畫面動態細節和事件邏輯理解不足的問題。

根據通義語音團隊介紹,傳統V2A技術常難以精確捕捉視覺與聲音的時空關聯,導致生成音頻與畫面關鍵事件錯位。ThinkSound通過引入結構化推理機制,模仿人類音效師的分析過程:首先理解視頻整體畫面與場景語義,再聚焦具體聲源對象,最后響應用戶編輯指令,逐步生成高保真且同步的音頻。

圖源:通義大模型微信公眾號

為訓練模型,團隊構建了首個支持鏈式推理的多模態音頻數據集AudioCoT,包含超2531小時高質量樣本,覆蓋豐富場景,并設計了面向交互編輯的對象級和指令級數據。ThinkSound由一個多模態大語言模型(負責“思考”推理鏈)和一個統一音頻生成模型(負責“輸出”聲音)組成。

ThinkSound 音頻生成模型的工作流

據悉,ThinkSound在多項權威測試中表現優于現有主流方法。該模型現已開源,開發者可在GitHub、Hugging Face、魔搭社區獲取代碼和模型。未來將拓展其在游戲、VR/AR等沉浸式場景的應用。

以下附上開源地址:

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
 
主站蜘蛛池模板: 随州市| 青冈县| 于都县| 莲花县| 贺州市| 桐庐县| 辽源市| 资源县| 德格县| 通渭县| 教育| 山阳县| 涿鹿县| 新营市| 上虞市| 右玉县| 巴彦淖尔市| 阳东县| 襄城县| 保靖县| 长治市| 涿州市| 灯塔市| 云林县| 扶风县| 前郭尔| 定陶县| 邢台市| 胶南市| 特克斯县| 若尔盖县| 合阳县| 泾川县| 和硕县| 酒泉市| 合山市| 资溪县| 滦南县| 浏阳市| 威信县| 桃园市|