谷歌旗下DeepMind團(tuán)隊(duì)近日發(fā)布了一款名為SIMA2的多模態(tài)智能體研究預(yù)覽版,該系統(tǒng)基于Gemini2.5Flash-lite架構(gòu)開發(fā),在未接觸過的復(fù)雜環(huán)境中執(zhí)行指令的成功率較前代提升近一倍,同時(shí)展現(xiàn)出通過自我優(yōu)化持續(xù)提升性能的能力。研究團(tuán)隊(duì)強(qiáng)調(diào),此次發(fā)布的核心目標(biāo)是驗(yàn)證構(gòu)建通用機(jī)器人與通用人工智能(AGI)所需的高層次環(huán)境理解與推理機(jī)制。
在技術(shù)實(shí)現(xiàn)層面,SIMA2延續(xù)了利用數(shù)百小時(shí)游戲視頻進(jìn)行預(yù)訓(xùn)練的策略,但創(chuàng)新性地引入了自生成數(shù)據(jù)閉環(huán)系統(tǒng)。當(dāng)智能體進(jìn)入新場(chǎng)景時(shí),會(huì)調(diào)用獨(dú)立的Gemini模型批量生成多樣化任務(wù),隨后通過內(nèi)置的獎(jiǎng)勵(lì)模型評(píng)估任務(wù)完成質(zhì)量,篩選優(yōu)質(zhì)軌跡數(shù)據(jù)用于持續(xù)微調(diào)。這種無需人工標(biāo)注的自主學(xué)習(xí)機(jī)制,使系統(tǒng)在《無人深空》等測(cè)試場(chǎng)景中能夠通過解析環(huán)境文本、識(shí)別顏色符號(hào)等視覺信息,自主執(zhí)行"前往紅色建筑"或"采集特定資源"等復(fù)雜指令,甚至支持由emoji組合構(gòu)成的抽象指令。
演示實(shí)驗(yàn)中,研究團(tuán)隊(duì)結(jié)合生成式世界模型Genie為SIMA2動(dòng)態(tài)創(chuàng)建逼真的戶外場(chǎng)景。智能體不僅準(zhǔn)確識(shí)別出長(zhǎng)椅、樹木、蝴蝶等環(huán)境元素,還能根據(jù)指令與這些對(duì)象產(chǎn)生交互。高級(jí)研究科學(xué)家簡(jiǎn)·王指出,這種"環(huán)境感知-目標(biāo)推斷-動(dòng)作規(guī)劃"的完整決策鏈,正是將虛擬環(huán)境訓(xùn)練成果遷移至實(shí)體機(jī)器人的關(guān)鍵技術(shù)模塊。通過模擬環(huán)境中的反復(fù)驗(yàn)證,團(tuán)隊(duì)希望為真實(shí)機(jī)器人系統(tǒng)構(gòu)建可復(fù)用的認(rèn)知框架。
值得注意的是,當(dāng)前版本的SIMA2專注于高層次決策能力的開發(fā),暫未涉及機(jī)械關(guān)節(jié)控制、運(yùn)動(dòng)協(xié)調(diào)等底層執(zhí)行技術(shù)。DeepMind同時(shí)訓(xùn)練的機(jī)器人基礎(chǔ)模型采用完全不同的技術(shù)路徑,兩種系統(tǒng)的融合方案仍在探索階段。研究團(tuán)隊(duì)拒絕透露正式版本的發(fā)布時(shí)間表,但表示希望通過開放預(yù)覽版吸引外部合作,共同研究虛擬智能體向物理實(shí)體遷移的技術(shù)路徑。目前該系統(tǒng)已展現(xiàn)出在動(dòng)態(tài)環(huán)境中理解復(fù)雜指令的潛力,但其商業(yè)化應(yīng)用仍需突破多項(xiàng)技術(shù)瓶頸。














