meta近日宣布推出第三代“分割一切”模型Segment Anything Models(SAM)的升級版本SAM 3,同時發布面向3D重建的開源模型SAM 3D。這款新模型在圖像與視頻分割領域實現重大突破,首次支持通過自然語言描述和圖像示例實現動態物體識別、分割與追蹤。相關技術將率先整合至Instagram視頻創作工具Edits及meta AI應用中,并計劃通過Segment Anything Playground平臺向公眾開放體驗。
SAM 3的核心創新在于引入“可提示概念分割”(Promptable Concept Segmentation)能力,用戶僅需輸入“條紋紅色雨傘”等自然語言描述,模型即可自動識別并分割圖像或視頻中所有符合條件的實例。這一技術突破擺脫了傳統模型依賴固定標簽集的局限,支持開放詞匯分割。在性能測試中,該模型在英偉達H200 GPU上處理單張含百余物體的圖像僅需30毫秒,在五目標并發視頻場景中可維持接近實時處理速度。基準測試顯示,其性能較現有系統提升一倍,在LVIS數據集零樣本分割任務中準確率達47.0,用戶偏好測試中以三比一優勢超越OWLv2模型。
為解決自然語言與視覺元素關聯難題,meta構建了包含21.4萬個獨特概念的SA-Co基準數據集,覆蓋12.4萬張圖像和1700個視頻,概念范圍達現有基準的50倍以上。SAM 3支持多種提示方式,除文本描述外,還可接受點、框、掩碼等視覺提示,甚至能處理“坐著但沒有拿禮物盒的人”等復雜推理型指令。當與多模態大語言模型配合時,其在ReasonSeg和OmniLabel等需要推理的分割任務中表現優異,且無需額外訓練數據。
在數據處理層面,meta開發了創新型人機協作數據引擎。該系統將SAM 3、人類標注者與AI模型結合,形成自動化標注流水線:AI模型首先挖掘圖像視頻并生成初始分割掩碼,人類與AI標注者共同驗證修正,形成反饋循環。其中AI標注器基于Llama 3.2v模型訓練,在掩碼質量驗證等任務中達到或超越人類水平。這一方案使負提示標注速度較純人工提升5倍,細粒度領域正提示標注效率提高36%,最終構建出包含超400萬個獨特概念的訓練集。
同步推出的SAM 3D包含兩個子模型:SAM 3D Objects實現單張自然圖像的3D形狀、紋理與物體布局重建,通過新訓練方案標注近百萬張圖像,生成314萬個網格模型,在人類偏好測試中以五比一優勢領先;SAM 3D Body則專注于復雜場景下的3D人體姿態估計,支持分割掩碼等交互式輸入。該模型訓練數據集包含800萬張圖像,涵蓋異常姿勢、遮擋及多人場景,在多個基準測試中準確性顯著提升。
實際應用方面,SAM 3已拓展至科研領域。與Conservation X Labs合作構建的SA-FARI數據集包含超1萬個相機陷阱視頻,覆蓋100余物種,每幀動物均標注邊界框與分割掩碼;蒙特雷灣水族館研究所主導的FathomNet項目則開放了水下圖像分割掩碼與實例分割基準。這兩個數據集將助力全球AI社區開發野生動物監測與海洋保護創新方案。
meta同步宣布,上述技術將率先應用于Facebook Marketplace的“房間預覽”功能,幫助用戶可視化家居裝飾品的擺放效果。Segment Anything Playground平臺則提供零技術門檻的交互體驗,用戶可上傳圖像視頻并嘗試不同提示方式,直觀感受AI分割技術的實際應用場景。












