meta人工智能研究團(tuán)隊(FAIR)近期宣布了一系列在AI感知領(lǐng)域的突破性進(jìn)展,共發(fā)布了五項創(chuàng)新研究成果。這些開源項目覆蓋了從視覺理解到3D空間定位,再到協(xié)作推理框架等多個方面,為通向高級機(jī)器智能(AMI)鋪平了道路,為AI如何更深入地理解和感知世界帶來了全新視角。
meta感知編碼器(Perception Encoder)作為此次發(fā)布的核心之一,是一款大規(guī)模視覺編碼器,其在圖像和視頻處理方面展現(xiàn)出了卓越性能。這款編碼器如同一雙“機(jī)器之眼”,不僅能夠?qū)⒁曈X信息與語言連接起來,還能在復(fù)雜甚至對抗性環(huán)境中保持高度穩(wěn)定。它不僅能識別廣泛的視覺概念,還能捕捉到細(xì)微差別,例如在海底識別隱藏的黃貂魚,或是在夜間野生動物攝像機(jī)中捕捉飛奔的刺豚。在零樣本分類和檢索任務(wù)中,感知編碼器的表現(xiàn)超越了所有現(xiàn)有的開源和專有模型,其強(qiáng)大的感知能力還成功遷移到了下游的語言任務(wù)中。
與此同時,meta推出了感知語言模型(PLM),這是一個開放且可復(fù)現(xiàn)的視覺-語言模型,專為解決復(fù)雜的視覺識別任務(wù)而設(shè)計。PLM基于大規(guī)模合成數(shù)據(jù)和開放視覺-語言理解數(shù)據(jù)集進(jìn)行訓(xùn)練,未依賴外部模型蒸餾。為了彌補現(xiàn)有視頻理解數(shù)據(jù)的不足,meta團(tuán)隊還收集了250萬個細(xì)粒度視頻問答和時空標(biāo)題樣本,創(chuàng)建了目前規(guī)模最大的同類數(shù)據(jù)集。PLM結(jié)合這些數(shù)據(jù)和人工標(biāo)注,創(chuàng)建了一個健壯、準(zhǔn)確且完全可復(fù)現(xiàn)的模型,提供不同參數(shù)規(guī)模的版本,非常適合透明的學(xué)術(shù)研究。
meta Locate3D則是一款端到端模型,能夠精確定位來自開放詞匯查詢的物體。該模型可以直接處理來自RGB-D傳感器的3D點云數(shù)據(jù),根據(jù)文本提示考慮空間關(guān)系和上下文,識別并精確定位特定物體實例。meta團(tuán)隊還發(fā)布了一個新數(shù)據(jù)集,包含跨三個廣泛使用數(shù)據(jù)集的13萬個語言標(biāo)注,有效提升了現(xiàn)有數(shù)據(jù)標(biāo)注量。meta Locate3D將支持更復(fù)雜和高效的機(jī)器人系統(tǒng)開發(fā),標(biāo)志著智能自主機(jī)器領(lǐng)域的重要進(jìn)展。
meta發(fā)布了80億參數(shù)的動態(tài)字節(jié)潛在變換器(Dynamic Byte Latent Transformer)模型權(quán)重,這是字節(jié)級語言模型架構(gòu)的重大進(jìn)步。該架構(gòu)在各種任務(wù)中的表現(xiàn)超越了基于分詞器的模型,顯著提高了推理效率和魯棒性,為傳統(tǒng)分詞方法提供了有力替代方案。
meta的協(xié)作推理器(Collaborative Reasoner)框架旨在評估和提高大型語言模型的協(xié)作推理技能。這一框架包含一系列目標(biāo)導(dǎo)向任務(wù),需要兩個智能體通過多輪對話完成多步推理。為了改善語言模型的協(xié)作推理能力,meta提出了使用合成交互數(shù)據(jù)的自我提升方法。該方法在多個任務(wù)上的性能顯著提高,展現(xiàn)了通過協(xié)作實現(xiàn)更好任務(wù)表現(xiàn)的潛力。
meta FAIR團(tuán)隊通過廣泛開放這些研究成果,旨在促進(jìn)AI開放生態(tài)系統(tǒng)的發(fā)展,加速技術(shù)進(jìn)步和發(fā)現(xiàn)。這些模型、基準(zhǔn)和數(shù)據(jù)集專注于提升機(jī)器的感知能力,幫助機(jī)器以更快的速度和人類般的智能獲取、處理和解釋感官信息,為實現(xiàn)高級機(jī)器智能奠定了堅實基礎(chǔ)。