滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

阿里通義實驗室開源ThinkSound音頻模型，實現AI為視頻精準配音

時間：2025-07-02 00:30:23 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

阿里巴巴通義實驗室近期宣布了一項重大開源成果——音頻生成模型ThinkSound，這一創新之舉標志著AI在音頻創作領域邁出了重要一步。ThinkSound的獨特之處在于，它首次引入了CoT（思維鏈）技術，使AI能夠模擬專業音效師的思考過程，精準捕捉視覺細節，并生成與畫面完美同步的高保真音頻。

據悉，ThinkSound的代碼和模型已在Github、HuggingFace及魔搭社區等平臺全面開源，供開發者免費下載和體驗。這一開放舉措無疑將極大地推動音頻生成技術的發展，激發更多創新應用。

在多媒體編輯和視頻內容創作領域，視頻生成音頻（V2A）技術一直備受關注。然而，現有技術往往難以準確捕捉畫面中的動態細節和時序信息，導致生成的音頻與關鍵視覺事件錯位，無法滿足專業創意場景的高要求。針對這一難題，通義實驗室將思維鏈推理引入多模態大模型，實現了對視覺事件與聲音之間深度關聯的精準建模。

為了進一步提升模型的性能，通義團隊還構建了首個帶思維鏈標注的音頻數據集AudioCoT。該數據集融合了超過2500小時的多源異構數據，為模型在音頻生成與編輯任務中提供了豐富的訓練素材。得益于此，ThinkSound在開源的VGGSound測試集上表現優異，多項核心指標均超越了現有主流方法。

具體而言，在openl3空間中Fréchet 距離（FD）這一指標上，ThinkSound相比MMAudio降低了近9個點，接近真實音頻分布的相似度提高了20%以上。同時，在代表模型對聲音事件類別和特征判別精準度的KLPaSST 和 KLPaNNs兩項指標上，ThinkSound也取得了同類模型中的最佳成績。

在MovieGen Audio Bench測試集上，ThinkSound同樣展現出了強大的實力，大幅領先于meta推出的音頻生成模型Movie Gen Audio。這一表現不僅證明了ThinkSound在影視音效、音頻后期等領域的廣泛應用潛力，也為其在游戲與虛擬現實音效生成等前沿領域的應用奠定了堅實基礎。

通義實驗室在音頻生成領域的布局遠不止于此。此前，該實驗室已推出語音生成大模型Cosyvoice和端到端音頻多模態大模型MinMo等，全面覆蓋了語音合成、音頻生成、音頻理解等多個場景。此次ThinkSound的開源，無疑將進一步鞏固通義實驗室在音頻生成領域的領先地位。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

茅臺基金攜手入局，AI大模型新星面壁智能再添重磅股東

07-02

科大訊飛攜手伙伴銀川共創新企，九星科技公司注冊資本達1500萬

07-02

綠源航標燈：智能革新，引領航海安全新紀元

當系統監測到某綠源航標燈的電池電壓連續 3 天出現異常下降時，結合同類設備的過往故障模式，AI模型能夠提前一周發出預警，提醒維護人員及時更換電池，大幅降低故障率，有效保障航海安全。將綠源航標燈數據與氣象、…

07-01

青島數據集團引領，數據要素市場六大創新成果璀璨發布

作為全國數據要素市場化配置改革的“先行軍”，本次發布會以“數據價值釋放”與“產業生態共建”為核心，集中呈現包括青島市行政事業單位數據資產化運營全流程、公共數據運營電子保函專區、全國首份公共數據價值評價標準、…

07-01

用友引領AI轉型新紀元，數智化實踐樹立企業升級典范

07-01

Gemini 2.5 Pro引領AI大模型新風尚：長上下文技術變革信息處理方式

07-01

馬斯克xAI獲百億美元融資，劍指AI研發與市場擴張

07-01

木倉科技發布最新智能駕駛模擬器，AI技術引領駕培行業變革

07-01

人工智能應用工程師：解鎖職業新路徑，獲取工信部認證全攻略

根據《新一代人工智能發展規劃》,到2025年,我國人工智能基礎理論實現重大突破,部分技術與應用達到世界領先水平,人工智能成為帶動我國產業升級和經濟轉型的主要動力,智能社會建設取得積極進展,人工智能核心產業規…

07-01

移遠通信加速“端側AI+機器人”布局，引領科技新潮流

在接入移遠由「高算力AI模組+端&云混合大模型+麥克風陣列拾音技術」構成的Robrain AI機器人解決方案后，TRON 1突破傳統「機械執行」模式，升級為具備主動環境感知、智能決策思考及自然語言交互能力的…

07-01

國產GPU獨角獸沖刺IPO：長期虧損，但國產替代機遇凸顯

1、中國GPU芯片市場曾長期被國外巨頭壟斷，國產芯片滲透率低，面臨技術標準適配及用戶習慣遷移障礙，生態建設需突破，市場拓展呈漸進式發展；2、公司智算推理 GPU 芯片曦思 N100 系列、訓推一體 GP…

07-01

淘天集團RecGPT大模型上線，電商推薦迎來個性化新升級

07-01

Meta重組打造“超級智能實驗室”，加速布局AI領域新賽道

07-01

RecGPT上線：淘寶個性化推薦迎來革命，購物體驗全面升級

07-01

南科大自主研發人形機器人“南科盤古”亮相，引領AI教育與創新潮流

07-01

點擊查看更多 +

全站最新

哈啰出行關聯公司法人代表換新顏

宗馥莉重返娃哈哈董事席，布局未來引猜想

上海愛馳汽車母公司股權遭凍結，15億資金何去何從？

關曉彤陷侵權風波，多方索賠致其被執行32萬元

茅臺基金攜手入局，AI大模型新星面壁智能再添重磅股東

螞蟻吉利攜手重慶，新設千里智駕科技公司，注冊資本達千萬級

熱門內容

本欄最新

科大訊飛攜手伙伴銀川共創新企，九星科技公司注冊資本達1500萬

綠源航標燈：智能革新，引領航海安全新紀元

青島數據集團引領，數據要素市場六大創新成果璀璨發布

人工智能應用工程師：解鎖職業新路徑，獲取工信部認證全攻略

移遠通信加速“端側AI+機器人”布局，引領科技新潮流

國產GPU獨角獸沖刺IPO：長期虧損，但國產替代機遇凸顯

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

阿里通義實驗室開源ThinkSound音頻模型，實現AI為視頻精準配音

日本精品一区二区三区高清久久