滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

阿里通義實驗室開源ThinkSound：AI音效師，為視頻生成高保真音頻

時間：2025-07-03 12:06:20 來源：至頂頭條編輯：快訊團隊 IP：北京 發表評論無障礙通道

阿里巴巴通義實驗室近期宣布了一項重大開源成果——音頻生成模型ThinkSound。該模型標志著首次將CoT（Chain-of-Thought，思維鏈）技術應用于音頻生成領域，使得人工智能能夠模擬專業音效師的思考過程，精準捕捉視覺細節，并生成與視頻畫面高度同步的高保真音頻。

ThinkSound的代碼與模型已在多個平臺，包括Github、HuggingFace以及魔搭社區上公開，開發者可以免費獲取并體驗這一創新技術。這一舉措無疑將極大地推動音頻生成技術的普及與發展。

視頻生成音頻（V2A）技術一直是多媒體編輯和視頻內容創作領域的關鍵技術之一。然而，現有技術仍面臨諸多挑戰，尤其是難以準確捕捉視頻中的動態細節和時序關系，導致生成的音頻往往缺乏與關鍵視覺事件的精確對應，難以滿足專業創意場景中對時序和語義連貫性的高要求。

為了突破這一技術瓶頸，通義實驗室創新性地將思維鏈推理引入多模態大模型，使模型能夠模仿人類音效師的多階段創作流程。通過對視覺事件與相應聲音之間深度關聯的精準建模，模型能夠先分析視覺動態、再推斷聲學屬性，并按照時間順序合成與環境相符的音效。通義實驗室還構建了首個帶思維鏈標注的音頻數據集AudioCoT，該數據集融合了超過2500小時的多源異構數據，為模型的訓練提供了強有力的支持。

在開源的VGGSound測試集上，ThinkSound展現出了卓越的性能。其核心指標相比現有主流方法如MMAudio、V2A-Mappe、V-AURA等，均實現了15%以上的提升。特別是在openl3空間中的Fréchet距離（FD）指標上，ThinkSound的表現接近真實音頻分布，相似度提高了20%以上。同時，在代表模型對聲音事件類別和特征判別精準度的KLPaSST和KLPaNNs兩項指標上，ThinkSound也均取得了同類模型中的最佳成績。

不僅如此，在MovieGen Audio Bench測試集上，ThinkSound的表現也大幅領先meta推出的音頻生成模型Movie Gen Audio。這一成績進一步證明了ThinkSound在影視音效、音頻后期、游戲與虛擬現實音效生成等領域的廣泛應用潛力。

通義實驗室在音頻生成領域已有多項成果。除了ThinkSound外，還推出了語音生成大模型Cosyvoice和端到端音頻多模態大模型MinMo等，這些模型共同構成了覆蓋語音合成、音頻生成、音頻理解等場景的全面解決方案。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

微信公眾號未涼！大V們，是時候醒醒面對現實了

07-03

微軟年內再啟大規模裁員，9000崗位面臨風險

07-03

中國無人機：救援顯實力，全球專利市場雙領先

《紐約時報》網站報道說，短視頻顯示，這名被困男子懸掛在無人機上的長繩上，很快就被運送到了安全地帶。美國科技網站“無人機在線”也對此進行了報道，稱其為“一場未經策劃的救援壯舉”。此外，英國《金融時報》網站…

07-03

京東物流交通展發布“FAST”戰略，引領物流行業綠色轉型新篇章

07-03

碳化硅鏡片創新：為AR眼鏡高效散熱開辟新路徑

近日，西湖大學和慕德微納團隊發布了題為《用于電子設備散熱的高導熱透明輻射散熱器》的技術文獻，提出了一種基于碳化硅的智能眼鏡光學鏡片，來實現高效的熱管理，可使微型投影裝置（智能眼鏡中的主要發熱組件）的表面溫度…

07-03

斯坦德機器人港股上市在即，小米智造加持，哈工大校友領航創新征程

07-03

馬斯克旗下xAI再獲百億融資，人工智能版圖持續擴張

07-03

百度MuseSteamer視頻模型上線：音畫同步生成，開啟AI創作新紀元！

07-03

互聯網新聞信息稿源單位名單更新，權威發布平臺一網打盡！

07-03

SRv6核心標準RFC9800發布，中國移動牽頭制定引領全球互聯網技術演進

07-03

百度搜索全面煥新！智能框開啟AI搜索新篇章

07-03

漢宜高速啟用無人機“云端鷹眼”：路況巡查全覆蓋，保暢調度更精準

位于排湖收費站的機庫里，一架無人機騰空而起，在相關路段密切巡查，實時回傳車輛行駛緩慢的坐標與畫面，與高警、路政、施救等應急部門實現信息共享和聯勤聯動。針對傳統人工巡查效率低、風險高、盲區多等痛點，湖北交投楚天…

07-03

云端“克隆”銀川：數字孿生技術讓城市治理更智慧

6月30日，記者從寧夏銀川市自然資源局獲悉，寧夏首個集地理空間數據融合、三維場景應用和智慧治理于一體的數字孿生標桿項目落地銀川，通過云渲染和AI技術，讓城市治理擁有“智慧大腦”。董軍指著屏幕介紹，早期1平方公…

07-03

人形機器人背后的“智囊團”：具身智能訓練師揭秘

每天早上，具身智能算機器人訓練師徐志遠和他的團隊，就在這里開啟一天的工作。徐志遠：這個場景我們主要是做一個巡檢的操作，巡檢操作和其他一些抓取操作不太一樣的地方就是它需要多看，所以我們現在訓練這個機器人看的能…

07-03

湖北科研新銳：青年才俊引領人形機器人研發新浪潮

《人民日報》（2025年07月03日第 07 版）湖北省近年來在人形機器人領域加快布局，組織武漢大學、華中科技大學等參與相關項目研發，推出一系列人形機器人。其中，一批青年人才成為研發團隊中的骨干力量，…

07-03

點擊查看更多 +

全站最新

微軟年內再啟大規模裁員，9000崗位面臨風險

中國無人機：救援顯實力，全球專利市場雙領先

京東物流交通展發布“FAST”戰略，引領物流行業綠色轉型新篇章

碳化硅鏡片創新：為AR眼鏡高效散熱開辟新路徑

斯坦德機器人港股上市在即，小米智造加持，哈工大校友領航創新征程

馬斯克旗下xAI再獲百億融資，人工智能版圖持續擴張

熱門內容

本欄最新

互聯網新聞信息稿源單位名單更新，權威發布平臺一網打盡！

SRv6核心標準RFC9800發布，中國移動牽頭制定引領全球互聯網技術演進

百度搜索全面煥新！智能框開啟AI搜索新篇章

漢宜高速啟用無人機“云端鷹眼”：路況巡查全覆蓋，保暢調度更精準

云端“克隆”銀川：數字孿生技術讓城市治理更智慧

人形機器人背后的“智囊團”：具身智能訓練師揭秘

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

阿里通義實驗室開源ThinkSound：AI音效師，為視頻生成高保真音頻

日本精品一区二区三区高清久久