meta正式推出音頻處理領域的重磅突破——SAM Audio,全球首個統一的多模態音頻分離模型。它能讓用戶像“用眼睛聽聲音”一樣,從一段混雜的視頻或音頻中,一鍵提取出任意目標聲音:點擊視頻中的吉他手,立刻分離出純凈吉他聲;輸入“狗吠”,自動過濾掉整段播客中的犬吠噪音;甚至只需圈定時間片段,即可精準剔除干擾音。這項技術首次將人類自然感知聲音的方式——看、說、指、選——完整復刻到AI系統中。
SAM Audio的核心是其自研的感知編碼器視聽(PE-AV),被meta稱為模型的“耳朵”。該引擎基于今年4月開源的meta Perception Encoder計算機視覺模型擴展而來,首次將高級視覺理解能力與音頻信號深度融合,實現跨模態的聲音定位與分離。
具體而言,SAM Audio支持三種直覺化交互方式,可單獨或組合使用:
- 文本提示:輸入“人聲演唱”“汽車喇叭”等語義描述,自動提取對應聲源;
- 視覺提示:在視頻畫面中點擊發聲物體(如說話的人、敲鼓的手),系統即分離其音頻;
- 時間片段提示(行業首創):標記目標聲音出現的時間區間(如“3分12秒到3分18秒”),模型自動處理整段錄音中的同類聲音——meta將其類比為《賽博朋克2077》中的“超夢”技術。
為推動技術標準化,meta同步開源兩大關鍵工具:
- SAM Audio-Bench:首個基于真實場景的音頻分離評測基準;
- SAM Audio Judge:全球首個專用于音頻分離質量的自動評估模型,可量化判斷分離結果的純凈度與完整性。
此次發布的PE-AV不僅是SAM Audio的底層引擎,還將賦能meta其他AI產品,包括字幕生成、視頻理解與智能剪輯系統。它的開源,意味著開發者未來可構建自己的“視聽聯覺”AI應用——從自動消噪會議記錄,到沉浸式AR音頻交互,再到無障礙輔助聽覺設備。
在視頻內容爆炸式增長的今天,SAM Audio的出現,標志著音頻處理正式進入“可交互、可編輯、可理解”的新時代。過去,我們只能被動接收聲音;現在,meta讓我們擁有了“選擇性聆聽”的超能力——而這,或許只是多模態AI重塑感官體驗的第一步。
體驗地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio









