meta近日在人工智能領域再掀波瀾,正式推出第三代圖像分割模型Segment Anything Models(SAM)——SAM 3,并同步開源3D重建模型SAM 3D。這一技術組合不僅突破了傳統圖像分割的固有局限,更將應用場景從二維平面延伸至三維空間,為視頻創作、機器人感知、野生動物保護等多個領域帶來革新性工具。
在核心功能層面,SAM 3首次實現通過自然語言與圖像示例的雙重提示,精準識別、分割及追蹤視頻中的任意物體。用戶僅需輸入“條紋紅色雨傘”等描述性詞匯,模型即可自動定位圖像或視頻中所有符合條件的實例,徹底擺脫傳統模型對固定標簽集的依賴。為驗證這一能力,meta構建了SA-Co基準數據集,涵蓋21.4萬個獨特概念、12.4萬張圖像及1700個視頻,其概念覆蓋范圍達現有基準的50倍以上。測試數據顯示,SAM 3在LVIS數據集的零樣本分割任務中準確率達47.0,較前代提升22%;在用戶偏好測試中,其輸出效果以3:1的優勢領先于最強基準模型OWLv2。
技術架構方面,SAM 3引入“可提示概念分割”(Promptable Concept Segmentation)機制,支持短語文本、圖像示例、點選、框選等多種提示方式。這種靈活性使其既能處理“坐著但沒有拿禮物盒的人”等復雜推理任務,也可應對罕見或難以用文字描述的視覺概念。當與多模態大語言模型協同工作時,SAM 3在ReasonSeg和OmniLabel等需要推理的分割基準測試中表現優異,且無需針對特定數據集進行額外訓練。
數據標注效率的飛躍是SAM 3的另一大突破。meta開發的創新數據引擎將模型、人類標注者與AI系統結合,形成閉環反饋機制。對于圖像中不存在的概念標注,該系統速度較純人工提升5倍;在細粒度領域標注中,效率亦提高36%。通過這一系統,研究團隊構建了包含超400萬個獨特概念的訓練集,其中AI標注者基于Llama 3.2v模型,在掩碼質量驗證等任務中達到或超越人類水平,使整體標注吞吐量翻倍。
在三維重建領域,SAM 3D系列模型樹立了新標桿。其包含的SAM 3D Objects可從單張自然圖像重建詳細3D形狀、紋理及物體布局,通過擴散捷徑優化,實現幾秒內完成高質量紋理重建。在人類偏好測試中,該模型以至少5:1的勝率領先其他領先方案,為機器人3D感知等實時應用提供可能。另一模型SAM 3D Body則專注于人體姿態估計,即使面對異常姿勢、遮擋或多人場景,仍能通過交互式輸入(如分割掩碼)實現精準預測。其訓練數據集涵蓋800萬張圖像,包含罕見姿勢及多樣化服裝場景,在多個3D基準測試中表現卓越。
實際應用層面,SAM 3已滲透至科研與商業領域。meta與Conservation X Labs合作推出的SA-FARI數據集,包含超1萬個相機陷阱視頻,覆蓋100余個物種,每幀圖像均標注邊界框與分割掩碼,為野生動物保護提供研究工具。海洋研究方面,FathomNet數據庫開放了水下圖像的定制化分割掩碼及實例分割基準,助力海洋探索AI工具開發。商業領域,meta與Roboflow合作,允許用戶標注數據、微調模型并部署至特定場景,同時公開微調方法供社區參考。
盡管性能顯著提升,SAM 3仍存在局限性。例如,其在細粒度專業領域(如醫學圖像)的零樣本泛化能力有限,需針對特定術語進行優化;視頻追蹤任務中,推理成本隨物體數量線性增長,且缺乏物體間交互機制。這些挑戰為后續研究指明了方向,也預示著圖像分割技術仍有廣闊進化空間。











