近年來,以ChatGPT和Claude為代表的聊天機(jī)器人憑借強(qiáng)大的任務(wù)處理能力迅速普及。無論是創(chuàng)作十四行詩、調(diào)試程序代碼,還是解答冷門知識,這些人工智能系統(tǒng)都展現(xiàn)出驚人的適應(yīng)性。其背后是互聯(lián)網(wǎng)上數(shù)以十億計的文本數(shù)據(jù)支撐,但當(dāng)科學(xué)家試圖將這些技術(shù)應(yīng)用于實(shí)體機(jī)器人時,卻遭遇了新的挑戰(zhàn)。
機(jī)器人要成為合格的家居或工業(yè)助手,僅靠文本數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠。它們需要通過實(shí)際操作演示掌握抓取、堆疊等空間技能,而真實(shí)的物理環(huán)境演示數(shù)據(jù)采集既耗時又難以精確復(fù)現(xiàn)。此前的研究嘗試過兩種路徑:要么使用AI生成模擬數(shù)據(jù),但常出現(xiàn)違背物理規(guī)律的錯誤;要么手動構(gòu)建數(shù)字環(huán)境,但成本高昂且擴(kuò)展性差。
麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室與豐田研究院的聯(lián)合團(tuán)隊,提出了一種名為"可控場景生成"的創(chuàng)新方法。該技術(shù)通過程序化方式構(gòu)建廚房、客廳等三維場景,使工程師能在虛擬環(huán)境中模擬海量真實(shí)交互。其訓(xùn)練基礎(chǔ)是一個包含4400萬個3D房間模型的龐大數(shù)據(jù)庫,系統(tǒng)能將這些數(shù)字資產(chǎn)重新組合成符合物理規(guī)律的新場景。
核心技術(shù)基于擴(kuò)散模型的"內(nèi)部繪制"功能。研究人員將這一生成式AI系統(tǒng)比作數(shù)字畫師:它從隨機(jī)噪聲開始創(chuàng)作,逐步在空白畫布上填充桌椅、餐具等物體,最終形成具有真實(shí)物理特性的場景。例如,系統(tǒng)會自動避免"穿模"錯誤——確保叉子不會懸浮在碗的上方,這種細(xì)節(jié)處理對機(jī)器人訓(xùn)練至關(guān)重要。
在場景優(yōu)化過程中,團(tuán)隊引入了"蒙特卡洛樹搜索"算法。這種源自AlphaGo圍棋程序的技術(shù),能通過模擬多種可能性找到最優(yōu)解。實(shí)驗(yàn)顯示,該系統(tǒng)在一個簡單餐廳場景中成功布置了34件物品(包括多層點(diǎn)心蒸籠),遠(yuǎn)超訓(xùn)練數(shù)據(jù)中平均17件的場景復(fù)雜度。MIT電子工程與計算機(jī)科學(xué)系博士生尼古拉斯·普法夫指出:"這相當(dāng)于讓模型在部分完成的畫作上持續(xù)創(chuàng)作,最終產(chǎn)出超越原始數(shù)據(jù)分布的復(fù)雜場景。"
強(qiáng)化學(xué)習(xí)機(jī)制的引入進(jìn)一步提升了場景多樣性。系統(tǒng)在完成初始訓(xùn)練后,會進(jìn)入第二階段:研究人員設(shè)定獎勵標(biāo)準(zhǔn)(如物理真實(shí)性或物品豐富度),模型通過試錯學(xué)習(xí)生成更高分的場景。這種訓(xùn)練方式使生成的場景往往與原始數(shù)據(jù)差異顯著,例如在食品儲藏架場景中,系統(tǒng)準(zhǔn)確實(shí)現(xiàn)用戶指令的成功率高達(dá)98%,在凌亂早餐桌場景中達(dá)86%,較同類技術(shù)提升超過10個百分點(diǎn)。
用戶可通過自然語言直接操控場景生成。當(dāng)輸入"廚房桌上有一個碗和四個蘋果"的指令時,系統(tǒng)能精準(zhǔn)呈現(xiàn)相應(yīng)布局。更復(fù)雜的需求如"用相同物體設(shè)計不同布局",系統(tǒng)也能將蘋果分散擺放在多個盤子上,或?qū)⑵灞P游戲與書籍重新組合在書架上。這種靈活性為機(jī)器人訓(xùn)練提供了理想的測試平臺,研究人員已在此環(huán)境中記錄虛擬機(jī)器人完成餐具分類、面包擺放等任務(wù)的流暢操作。
盡管當(dāng)前研究更多是概念驗(yàn)證,但團(tuán)隊已規(guī)劃了明確的發(fā)展路徑。未來計劃整合生成式AI創(chuàng)造全新物體,而非僅使用現(xiàn)有資產(chǎn)庫;引入可活動關(guān)節(jié)物體(如可開啟的柜門),增強(qiáng)場景交互性。研究團(tuán)隊還考慮借鑒"Scalable Real2Sim"項目的經(jīng)驗(yàn),構(gòu)建包含互聯(lián)網(wǎng)圖像的物體庫,進(jìn)一步提升虛擬環(huán)境的逼真度。
這項突破獲得了工業(yè)界專家的認(rèn)可。亞馬遜機(jī)器人公司應(yīng)用科學(xué)家杰里米·比納吉亞評價道:"該方法在大型現(xiàn)有場景集上訓(xùn)練生成模型,并通過強(qiáng)化學(xué)習(xí)適配特定需求,既保證了物理可行性,又全面考慮了三維空間的平移旋轉(zhuǎn),相比傳統(tǒng)2D網(wǎng)格排列方法具有顯著優(yōu)勢。"豐田研究院專家里克·科里則強(qiáng)調(diào):"這種結(jié)合訓(xùn)練后處理與推理時搜索的框架,為自動化場景生成提供了高效解決方案,特別是能生成對下游任務(wù)至關(guān)重要的'前所未見'場景。"










