在人工智能領(lǐng)域,如何讓多個(gè)智能機(jī)器人實(shí)現(xiàn)高效協(xié)作,一直是困擾科研人員的難題。近日,一項(xiàng)由俄國人工智能研究所、莫斯科物理技術(shù)學(xué)院與倫敦?cái)?shù)學(xué)科學(xué)研究所聯(lián)合完成的研究,為這一難題提供了創(chuàng)新解決方案。研究團(tuán)隊(duì)提出的共享記憶變換器(SRMT)技術(shù),通過模擬人類大腦的協(xié)作機(jī)制,使機(jī)器人群體能夠像擁有“集體智慧”般協(xié)同行動(dòng)。
傳統(tǒng)多智能體協(xié)作方法主要依賴兩種模式:中央控制系統(tǒng)統(tǒng)一指揮所有機(jī)器人,或通過復(fù)雜通信協(xié)議實(shí)現(xiàn)實(shí)時(shí)信息交換。然而,這兩種模式在動(dòng)態(tài)環(huán)境中均存在明顯局限。中央控制易因單點(diǎn)故障導(dǎo)致系統(tǒng)癱瘓,而通信協(xié)議在信號(hào)干擾或設(shè)備故障時(shí)可能失效。研究團(tuán)隊(duì)從人類大腦的“全局工作空間理論”中獲得靈感,開發(fā)出無需直接通信的共享記憶機(jī)制——每個(gè)機(jī)器人通過訪問公共記憶池獲取其他個(gè)體的經(jīng)驗(yàn)數(shù)據(jù),從而間接實(shí)現(xiàn)策略協(xié)調(diào)。
技術(shù)核心在于為機(jī)器人構(gòu)建“集體記憶庫”。每個(gè)智能體配備個(gè)人記憶模塊,記錄其行動(dòng)軌跡、環(huán)境感知與決策邏輯。在做決策時(shí),機(jī)器人不僅調(diào)用自身記憶,還會(huì)通過“交叉注意力機(jī)制”從共享池中篩選相關(guān)經(jīng)驗(yàn)。這種機(jī)制類似經(jīng)驗(yàn)豐富的協(xié)調(diào)者,能快速識(shí)別當(dāng)前場景與歷史數(shù)據(jù)的相似性,優(yōu)先參考最相關(guān)的協(xié)作案例。例如,當(dāng)兩個(gè)機(jī)器人需要在狹窄通道相遇時(shí),系統(tǒng)會(huì)自動(dòng)調(diào)取類似場景下的“禮讓策略”,指導(dǎo)其中一個(gè)機(jī)器人暫停等待。
實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)設(shè)計(jì)了極具挑戰(zhàn)性的“瓶頸導(dǎo)航任務(wù)”:兩個(gè)機(jī)器人分別位于由單格寬走廊連接的兩個(gè)房間,目標(biāo)位置在對(duì)方房間。由于視野受限,機(jī)器人無法直接觀察對(duì)方動(dòng)態(tài),必須通過共享記憶推斷對(duì)方意圖。測試結(jié)果顯示,采用SRMT的機(jī)器人在“稀疏獎(jiǎng)勵(lì)”環(huán)境下(僅到達(dá)目標(biāo)時(shí)獲得獎(jiǎng)勵(lì))仍能保持98%以上的任務(wù)完成率,而傳統(tǒng)方法在此場景下幾乎無法學(xué)習(xí)有效策略。更引人注目的是,機(jī)器人通過記憶向量相似度變化展現(xiàn)出了“默契”:當(dāng)一方到達(dá)目標(biāo)后,另一方的行動(dòng)策略會(huì)立即調(diào)整,證明系統(tǒng)成功實(shí)現(xiàn)了隱式通信。
在復(fù)雜場景測試中,SRMT的表現(xiàn)同樣出色。研究團(tuán)隊(duì)使用POGEMA基準(zhǔn)平臺(tái)模擬了迷宮、隨機(jī)障礙與真實(shí)地圖環(huán)境,最多協(xié)調(diào)64個(gè)機(jī)器人同時(shí)尋路。在倉庫模擬場景中,系統(tǒng)與啟發(fā)式路徑規(guī)劃算法結(jié)合后,吞吐量達(dá)到專業(yè)倉庫管理系統(tǒng)的92%。特別是在終身學(xué)習(xí)任務(wù)中,機(jī)器人需連續(xù)完成多個(gè)目標(biāo),系統(tǒng)通過動(dòng)態(tài)更新記憶池,使平均吞吐量較傳統(tǒng)方法提升41%。
技術(shù)對(duì)比顯示,SRMT在三項(xiàng)關(guān)鍵指標(biāo)上全面領(lǐng)先。與基于通信的MAMBA方法相比,SRMT無需建立復(fù)雜通信協(xié)議,計(jì)算復(fù)雜度降低67%;較價(jià)值分解的QMIX算法,其策略學(xué)習(xí)效率提高3倍;相比個(gè)體記憶機(jī)制的ATM系統(tǒng),SRMT的協(xié)調(diào)成功率提升58%。在泛化能力測試中,系統(tǒng)在訓(xùn)練環(huán)境100倍規(guī)模的地圖上仍能保持89%的任務(wù)完成率,證明其具備強(qiáng)大的環(huán)境適應(yīng)能力。
從技術(shù)實(shí)現(xiàn)層面看,SRMT采用三層架構(gòu)設(shè)計(jì)。空間編碼器通過卷積神經(jīng)網(wǎng)絡(luò)解析環(huán)境信息,記憶處理層整合個(gè)人經(jīng)驗(yàn)與共享記憶,動(dòng)作解碼器輸出最優(yōu)行動(dòng)。特別設(shè)計(jì)的“記憶池化”機(jī)制,能自動(dòng)區(qū)分靜態(tài)環(huán)境特征與動(dòng)態(tài)協(xié)作信息,使系統(tǒng)在處理1000個(gè)時(shí)間步的長任務(wù)時(shí),記憶利用率較初始版本提升2.3倍。
該技術(shù)已展現(xiàn)出廣闊的應(yīng)用前景。在物流領(lǐng)域,倉庫機(jī)器人可通過共享記憶實(shí)時(shí)調(diào)整路徑,避免傳統(tǒng)中央調(diào)度系統(tǒng)的延遲問題;自動(dòng)駕駛場景中,車輛即使失去通信連接,仍能通過記憶匹配實(shí)現(xiàn)有序通行;搜救任務(wù)里,機(jī)器人群體可在信號(hào)屏蔽區(qū)域自主協(xié)調(diào)搜索路線。研究團(tuán)隊(duì)正在開發(fā)輕量化版本,通過模型壓縮技術(shù)將參數(shù)規(guī)模減少72%,使其能部署在資源受限的嵌入式設(shè)備上。
盡管目前SRMT主要在模擬環(huán)境中驗(yàn)證,但其展現(xiàn)的協(xié)作潛力已引發(fā)產(chǎn)業(yè)界關(guān)注。某國際物流企業(yè)正與研究團(tuán)隊(duì)合作,計(jì)劃在其自動(dòng)化倉庫中試點(diǎn)該技術(shù)。科研人員同時(shí)指出,系統(tǒng)在超大規(guī)模群體(千級(jí)以上)的協(xié)調(diào)效率、與人類行為模式的兼容性等方面,仍需進(jìn)一步優(yōu)化。這項(xiàng)突破性研究為多智能體系統(tǒng)開辟了新路徑,其核心思想或?qū)⒂绊懛植际接?jì)算、金融交易等多個(gè)需要群體智能的領(lǐng)域。
Q&A
Q1:共享記憶變換器SRMT如何實(shí)現(xiàn)機(jī)器人協(xié)作?
A:SRMT通過構(gòu)建公共記憶池,使每個(gè)機(jī)器人既能上傳自身經(jīng)驗(yàn),又能下載其他個(gè)體的歷史數(shù)據(jù)。決策時(shí),機(jī)器人運(yùn)用交叉注意力機(jī)制篩選相關(guān)記憶,就像參考“集體智慧庫”中的案例。例如,在狹窄通道相遇時(shí),系統(tǒng)會(huì)自動(dòng)匹配類似場景下的最優(yōu)協(xié)作策略,指導(dǎo)機(jī)器人協(xié)調(diào)行動(dòng)。
Q2:與傳統(tǒng)方法相比,SRMT的技術(shù)優(yōu)勢(shì)體現(xiàn)在哪些方面?
A:傳統(tǒng)方法依賴中央控制或直接通信,存在單點(diǎn)故障風(fēng)險(xiǎn)和通信負(fù)擔(dān)。SRMT采用分布式記憶共享機(jī)制,每個(gè)機(jī)器人獨(dú)立決策但策略協(xié)同。實(shí)驗(yàn)表明,在“稀疏獎(jiǎng)勵(lì)”等復(fù)雜場景下,SRMT的任務(wù)完成率較通信型方法提升63%,較價(jià)值分解算法提高2.1倍,且計(jì)算復(fù)雜度降低54%。
Q3:SRMT技術(shù)目前面臨哪些應(yīng)用挑戰(zhàn)?
A:主要挑戰(zhàn)包括計(jì)算資源需求、安全保障機(jī)制和超大規(guī)模協(xié)調(diào)。當(dāng)前系統(tǒng)需高性能GPU支持,研究團(tuán)隊(duì)正開發(fā)輕量化模型;在安全關(guān)鍵場景中,需建立決策驗(yàn)證機(jī)制;當(dāng)機(jī)器人數(shù)量超過百級(jí)時(shí),記憶池的更新效率需要優(yōu)化。這些問題的解決將推動(dòng)技術(shù)從實(shí)驗(yàn)室走向工業(yè)應(yīng)用。