meta近日宣布推出第三代“分割一切”模型Segment Anything Models(SAM)——SAM 3,在圖像與視頻分割領域實現關鍵技術突破。該模型首次支持用戶通過自然語言描述和圖像示例,精準識別、分割及追蹤視頻中的任意物體,同時發布開源的3D重建模型SAM 3D,并計劃將其整合至Instagram視頻創作工具Edits和meta AI應用中。
SAM 3的核心創新在于引入“可提示概念分割”(Promptable Concept Segmentation,簡稱PCS)能力。用戶僅需輸入“條紋紅色雨傘”等自然語言提示,模型即可自動識別并分割圖像或視頻中所有符合條件的實例,突破傳統模型依賴固定標簽集的限制。這一技術使模型能夠處理更復雜的語義描述,例如“坐著但沒有拿禮物盒的人”,顯著提升分割的靈活性與實用性。
在性能測試中,SAM 3展現出顯著優勢。其處理速度在單張包含超百個物體的圖像時僅需30毫秒,在五路并發目標的視頻場景中仍能保持接近實時性能。SA-Co基準測試顯示,其性能較現有系統提升一倍,在LVIS數據集的零樣本分割任務中準確率達47.0,超越此前38.5的紀錄。用戶偏好測試中,其輸出效果以三比一的比例優于基準模型OWLv2。
為解決傳統模型在自然語言與視覺元素關聯上的局限,meta構建了SA-Co基準數據集,包含21.4萬個獨特概念、12.4萬張圖像及1700個視頻,概念覆蓋范圍是現有基準的50倍以上。SAM 3支持多種提示方式,除文本提示外,還可通過點、框、掩碼等視覺提示進行分割,尤其適用于罕見或難以用文字描述的場景。當與多模態大語言模型結合時,其在ReasonSeg和OmniLabel等復雜推理分割任務中表現優異,且無需額外訓練數據。
數據標注方面,meta開發了創新的人機協作引擎,將模型、人類標注者與AI系統結合,標注速度提升顯著。對于負提示(圖像中不存在的概念),標注效率較純人工提升五倍;在細粒度領域,正提示標注速度提高36%。該系統已生成包含超400萬個獨特概念的訓練集,AI標注者基于Llama 3.2v模型,在掩碼質量驗證等任務中達到或超越人類水平,使整體吞吐量翻倍。
同步發布的SAM 3D包含兩個前沿模型:SAM 3D Objects與SAM 3D Body。前者可從單張自然圖像重建3D形狀、紋理及物體布局,突破物理世界3D數據瓶頸。通過多階段訓練方案,該模型標注近百萬張圖像,生成314萬個網格模型,在人類偏好測試中以五比一的優勢領先其他模型,并支持機器人等近實時3D感知應用。后者專注于人體姿勢與形狀估計,即使面對遮擋或異常姿勢仍能保持高精度,支持交互式輸入如分割掩碼,訓練數據集規模達800萬張圖像。
實際應用層面,SAM 3已拓展至科研領域。meta與Conservation X Labs合作推出SA-FARI數據集,包含超萬個相機陷阱視頻,覆蓋100余種野生動物,每幀均標注邊界框與分割掩碼。海洋研究方面,FathomNet數據庫開放水下圖像分割掩碼與實例分割基準,助力AI驅動的海洋探索。meta與Roboflow合作提供模型微調工具,用戶可標注數據并定制SAM 3以滿足特定需求。
盡管技術領先,SAM 3仍存在局限。在細粒度領域外概念(如醫學術語“血小板”)的零樣本泛化能力較弱,視頻追蹤成本隨物體數量線性增長,且物體間缺乏通信機制。這些挑戰為后續研究指明方向,推動分割技術向更精細化、場景化發展。













