meta公司近日在音頻技術領域取得重大進展,正式發布全球首個多模態音頻分離模型——SAM Audio。這項創新技術通過模擬人類感知聲音的天然方式,實現了對復雜音頻的精準解析與交互式提取。用戶現在能夠像“用眼睛聆聽”般,從混合音頻或視頻中分離出特定目標聲音,無論是點擊畫面中的樂器、輸入文字描述聲源,還是標記時間片段,均可一鍵完成操作。
該模型的核心突破在于其自研的感知編碼器視聽引擎(PE-AV),這一被稱為模型“聽覺中樞”的技術,源于meta今年4月開源的計算機視覺模型meta Perception Encoder的擴展。通過將高級視覺理解能力與音頻信號深度融合,PE-AV首次實現了跨模態的聲音定位與分離,為音頻處理開辟了全新路徑。例如,用戶只需點擊視頻中的吉他手,系統即可瞬間提取純凈的吉他聲;輸入“狗吠”關鍵詞,便能自動過濾播客中的犬類噪音;甚至通過標記時間區間,可精準剔除特定時段的干擾音。
SAM Audio提供了三種直觀交互模式,支持單獨或組合使用。文本提示功能允許用戶通過語義描述(如“人聲演唱”“汽車喇叭”)直接提取對應聲源;視覺提示則通過點擊視頻畫面中的發聲物體(如說話者、敲擊鍵盤的手)實現音頻分離;時間片段提示作為行業首創功能,用戶可標記目標聲音出現的時間范圍(如“2分30秒至3分15秒”),系統將自動處理整段錄音中的同類聲音。meta將這一功能類比為科幻作品中的“超夢”技術,強調其精準性與靈活性。
為推動技術標準化,meta同步開源了兩項關鍵工具:SAM Audio-Bench作為首個基于真實場景的音頻分離評測基準,為行業提供了統一的評估標準;SAM Audio Judge則是全球首個專用于音頻分離質量的自動評估模型,能夠量化分析分離結果的純凈度與完整性。這兩項工具的開源,將加速音頻處理技術的迭代與落地應用。
PE-AV引擎的潛力不僅限于音頻分離領域。作為meta多模態AI生態的基礎組件,該技術將賦能旗下字幕生成、視頻理解與智能剪輯等系統,提升跨模態內容處理的效率與準確性。其開源特性更意味著開發者可基于此構建多樣化的“視聽聯覺”應用,例如自動消噪的會議記錄工具、沉浸式AR音頻交互系統,或針對聽力障礙人群的無障礙輔助設備。
在視頻內容呈指數級增長的當下,SAM Audio的推出標志著音頻處理正式邁入“可交互、可編輯、可理解”的新階段。過去,用戶只能被動接收混合聲音;如今,通過meta的技術,人們首次獲得了“選擇性聆聽”的能力——這一變革或許僅是多模態AI重塑人類感官體驗的起點。
體驗地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio












