亚洲字幕一区二区,99久久婷婷,亚洲精品国产a

訊 7月4日，阿里通義實驗室宣布開源首個音頻生成模型ThinkSound。該模型首次將思維鏈（CoT）技術應用于音頻生成領域，旨在解決現有視頻轉音頻（V2A）技術對畫面動態細節和事件邏輯理解不足的問題。

根據通義語音團隊介紹，傳統V2A技術常難以精確捕捉視覺與聲音的時空關聯，導致生成音頻與畫面關鍵事件錯位。ThinkSound通過引入結構化推理機制，模仿人類音效師的分析過程：首先理解視頻整體畫面與場景語義，再聚焦具體聲源對象，最后響應用戶編輯指令，逐步生成高保真且同步的音頻。

圖源：通義大模型微信公眾號

為訓練模型，團隊構建了首個支持鏈式推理的多模態音頻數據集AudioCoT，包含超2531小時高質量樣本，覆蓋豐富場景，并設計了面向交互編輯的對象級和指令級數據。ThinkSound由一個多模態大語言模型（負責“思考”推理鏈）和一個統一音頻生成模型（負責“輸出”聲音）組成。

ThinkSound 音頻生成模型的工作流

據悉，ThinkSound在多項權威測試中表現優于現有主流方法。該模型現已開源，開發者可在GitHub、Hugging Face、魔搭社區獲取代碼和模型。未來將拓展其在游戲、VR/AR等沉浸式場景的應用。

以下附上開源地址：

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

抖音副總裁李亮：禁止16歲以下直播并非新規已實施多年

07-04

吉利熊貓車型服務遷移至吉利銀河App

07-04

太原天空現“瀑布云”，飛機穿梭其間如“穿云箭”美景

07-04

《星空2》外星文明概念圖曝光：B社員工簡歷意外泄露游戲新設定

07-04

天府絳溪實驗室“天絳·諸葛”大模型備案通過，賦能多元智能場景

記者了解到，“天絳·諸葛”大模型通過備案后，其實際應用價值將在多個領域逐步顯現。值得一提的是，機器狗領域的突破并非終點——中心還計劃將“天絳·諸葛”大模型延伸至無人機、人形機器人等更多智能設備領域，通過技…

07-04

志海俱樂部：金融科技先鋒，共繪互聯網金融新藍圖

這是一支匯聚多元智慧的新時代互聯網金融團隊，成員來自五湖四海，跨越金融、科技、教育等多個行業領域，志海俱樂部成員在全球人數超過10萬+，不同的專業背景與人生閱歷在此交融碰撞，為俱樂部注入源源不斷的活力與創造力…

07-04

百度搜索大改版：從信息檢索邁向智能生活伙伴的新征程

這種設計模糊了搜索與創造的界限，用戶在搜索過程中就能直接調用這些工具，完成從想法到內容的轉化，這無疑大大提升了搜索的效率和實用性。其次，其多媒體輸出能力得到極大豐富，全面支持圖片、視頻、筆記等內容的混合排版，…

07-04

天府絳溪實驗室“天絳·諸葛”大模型通過備案，賦能多領域智能化發展

同時，基于“天絳·諸葛”大模型，先進計算中心正在構建智能體矩陣AIMatrix，研發或引入市場各類專業智能體進行聯合運營，打造多智能體社區生態，現已集成93個智能體。基于“天絳·諸葛”大模型，天府絳溪實…

07-04

敬業集團領跑智能制造，入選河北智能工廠名單，煉鋼技術再升級

近年來，依托工業互聯網、人工智能等技術，敬業集團推動鋼鐵生產全流程智能化改造。在煉鐵、煉鋼、軋鋼等核心工序，實現了焊標、高爐平臺巡檢、打捆貼標等70余個3D崗位的機器換人；建成了高爐專家系統、加熱爐智能燒爐…

07-04

抖音達人合作全攻略：五大靠譜渠道助你高效對接

三、合作達人時注意這些坑不要光看粉絲量，要看播放量+互動率；合作前最好簽個簡單的合作協議，包括發布時間、內容形式、結算規則等；盡量先小單測試，合作滿意后再放量；如果是帶貨，記得監控成交數據，防止“播放好看卻…

07-04

字節跳動布局AI創意領域，申請“即夢靈感助手”商標

南方財經7月4日電，天眼查財產線索信息顯示，近日，北京字跳網絡技術有限公司申請注冊“即夢靈感助手”商標，國際分類為通訊服務、網站服務，當前商標狀態均為等待實質審查。此前，該公司已申請注冊“即夢”“即夢AI迷你…

07-04

微軟大裁員9000人，Xbox業務放緩被指為主要原因

【綜合報道】據外媒7月4日報道，微軟本周宣布啟動大規模裁員計劃，全球范圍內將削減9000個崗位，其中位于其總部所在地華盛頓州的830名員工率先受到影響。外媒指出，盡管微軟2025年第一季度財報顯示…

07-04

百度搜索大升級，智能框與結構化內容引領搜索新體驗

什么才叫“帶來體驗革命的 AI搜索”，有人說是全面升級的自然語言理解能力；有人說是多模態交互，打破輸入與輸出內容的限定；也有做法是跳過信息呈現環節，直接接管用戶決策，于是我們看到越來越多的App 集成了…

07-04

楊立昆談Meta挖人：Meta因“開源”比OpenAI更具道德優勢

他主導的Meta AI實驗室以開放研究著稱，公開發布代碼和成果，推動行業技術共享。近日，楊立昆在社交平臺間接回應了Meta聲勢浩大的“挖人”操作，他覺得Meta起碼比OpenAI有道德優勢，因為“開源”?！?/div>

07-04

內燃機牽手工業互聯網，全柴動力打造智能制造新典范

中新網滁州7月4日電 (孔令佑儲瑋瑋)在全柴天和機械生產車間里，11個5G室內分布系統正實時“分揀”著五條生產線的數據流，工人們無需離開工位，通過面前的電子面板就能完成信息交互。基于自身的發動機制造經驗與…

07-04

點擊查看更多 +

全站最新

華為7英寸大屏中端機將至，紅米K90Pro曝光搭載潛望長焦

榮耀Magic V5深度評測：頂級配置下的折疊屏新體驗，市場接受度幾何？

夏日iPhone發燙？官方：無“制冷模式”，網友誤解輕App功能

高溫天iPhone發燙咋辦？蘋果客服教你正確降溫方法

LG手機謝幕：正式宣布終止軟件升級，全面退出智能機領域

高溫天iPhone發燙怎么辦？蘋果客服教你正確降溫方法

熱門內容

本欄最新

吉利熊貓車型服務遷移至吉利銀河App

太原天空現“瀑布云”，飛機穿梭其間如“穿云箭”美景

《星空2》外星文明概念圖曝光：B社員工簡歷意外泄露游戲新設定

天府絳溪實驗室“天絳·諸葛”大模型備案通過，賦能多元智能場景

志海俱樂部：金融科技先鋒，共繪互聯網金融新藍圖

百度搜索大改版：從信息檢索邁向智能生活伙伴的新征程

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

主站蜘蛛池模板：随州市| 青冈县| 于都县| 莲花县| 贺州市| 桐庐县| 辽源市| 资源县| 德格县| 通渭县| 教育| 山阳县| 涿鹿县| 新营市| 上虞市| 右玉县| 巴彦淖尔市| 阳东县| 襄城县| 保靖县| 长治市| 涿州市| 灯塔市| 云林县| 扶风县| 前郭尔| 定陶县| 邢台市| 胶南市| 特克斯县| 若尔盖县| 合阳县| 泾川县| 和硕县| 酒泉市| 合山市| 资溪县| 滦南县| 浏阳市| 威信县| 桃园市|

日本精品一区二区三区高清久久

通義AI“音效師”：阿里開源首個音頻模型ThinkSound

日本精品一区二区三区高清 久久

通義AI“音效師”：阿里開源首個音頻模型ThinkSound

日本精品一区二区三区高清久久