在人工智能技術(shù)快速發(fā)展的當(dāng)下,一位研究者將研究重心聚焦于世界模型與具身智能兩大前沿領(lǐng)域,并強(qiáng)調(diào)產(chǎn)業(yè)應(yīng)用和市場接受度是檢驗(yàn)技術(shù)價(jià)值的關(guān)鍵標(biāo)準(zhǔn),這一理念引發(fā)了學(xué)界的關(guān)注。寧波東方理工大學(xué)的助理教授金鑫正是這樣一位探索者。
近期,金鑫團(tuán)隊(duì)與上海交通大學(xué)、布里斯托大學(xué)、清華大學(xué)等高校合作,在美國圣地亞哥舉辦的NeurIPS會(huì)議期間組織了一場關(guān)于“具身世界模型”的研討會(huì)。這場活動(dòng)吸引了眾多學(xué)界和產(chǎn)業(yè)界專家參與并分享報(bào)告,進(jìn)一步推動(dòng)了該領(lǐng)域的技術(shù)交流。
金鑫的研究路徑經(jīng)歷了從底層視覺任務(wù)到高維認(rèn)知決策的轉(zhuǎn)變。早期,他專注于圖像視頻處理、壓縮等基礎(chǔ)領(lǐng)域,近年來逐漸轉(zhuǎn)向表征解耦、世界模型、空間智能等方向。他希望通過這些研究讓機(jī)器具備更強(qiáng)的智能,更好地理解物理世界并服務(wù)于實(shí)際產(chǎn)業(yè)需求。這種從感知到認(rèn)知的躍遷,反映了人工智能領(lǐng)域的發(fā)展趨勢。
盡管取得了顯著進(jìn)展,金鑫在談到核心研究時(shí)仍保持謹(jǐn)慎態(tài)度。他表示,當(dāng)前空間智能領(lǐng)域仍處于探索階段,尚未形成成熟的技術(shù)范式。任何聲稱找到唯一正確路徑的論斷都可能過于樂觀。他更傾向于將團(tuán)隊(duì)的工作視為一種可供參考的交流,而非定論。
在構(gòu)建世界模型的方法上,金鑫團(tuán)隊(duì)采取了一種混合策略。對于能夠明確描述的物理規(guī)則,如碰撞檢測和摩擦力,他們通過知識(shí)嵌入的方式將這些先驗(yàn)信息傳授給模型;而對于難以公式化的復(fù)雜現(xiàn)象,如軟體變形或大氣流動(dòng),則依賴數(shù)據(jù)驅(qū)動(dòng)的方法讓模型自行學(xué)習(xí)。這種結(jié)合知識(shí)注入與數(shù)據(jù)驅(qū)動(dòng)的方式,旨在提高模型的適應(yīng)性和準(zhǔn)確性。
目前,團(tuán)隊(duì)將這套方法應(yīng)用于工業(yè)制造場景,開發(fā)了“工廠世界模型”,并與寧波當(dāng)?shù)氐闹圃鞓I(yè)龍頭企業(yè)合作進(jìn)行驗(yàn)證。金鑫認(rèn)為,工業(yè)場景中的規(guī)則和需求相對明確,是技術(shù)落地的理想切入點(diǎn)。通過在真實(shí)環(huán)境中測試模型的有效性,團(tuán)隊(duì)能夠不斷優(yōu)化技術(shù)方案。
在GAIR大會(huì)上,金鑫分享了團(tuán)隊(duì)在空間智能技術(shù)領(lǐng)域的多項(xiàng)研究成果。他介紹了空間智能的概念起源,指出這一理念早在SLAM技術(shù)時(shí)期就已被討論,并在2024年由斯坦福大學(xué)的李飛飛教授進(jìn)一步拓展。如今,空間智能技術(shù)已在自動(dòng)駕駛、機(jī)器人、AIGC等多個(gè)行業(yè)得到應(yīng)用,展現(xiàn)出廣闊的發(fā)展前景。
金鑫將空間智能或世界模型劃分為三個(gè)核心部分:空間感知、空間交互和空間理解、泛化與生成。空間感知負(fù)責(zé)構(gòu)建3D世界的基礎(chǔ)框架;空間交互支持智能體與環(huán)境及多智能體之間的互動(dòng);空間理解則涉及對世界本質(zhì)的把握和生成能力。基于這一框架,團(tuán)隊(duì)將研究細(xì)分為空間構(gòu)建和智能體訓(xùn)練兩個(gè)方向,形成了一個(gè)建模-訓(xùn)練的閉環(huán)優(yōu)化系統(tǒng)。
在具體研究工作中,團(tuán)隊(duì)提出了多項(xiàng)創(chuàng)新方案。例如,UniScene項(xiàng)目專注于駕駛場景的生成,通過Occupancy(占據(jù)柵格)技術(shù)統(tǒng)一多模態(tài)數(shù)據(jù),構(gòu)建了一個(gè)全面的自動(dòng)駕駛仿真器。該方案能夠生成高質(zhì)量的駕駛視頻和雷達(dá)點(diǎn)云數(shù)據(jù),為自動(dòng)駕駛算法的訓(xùn)練提供了低成本且高效的解決方案。目前,團(tuán)隊(duì)已發(fā)布UniSceneV2版本,進(jìn)一步提升了數(shù)據(jù)質(zhì)量和規(guī)模,并新增了深度圖和語義分割等模態(tài)。
另一項(xiàng)工作OmniNWM引入了閉環(huán)的“規(guī)劃-生成”機(jī)制,通過將規(guī)劃軌跡作為條件輸入生成器,預(yù)測未來場景的變化。該模型能夠同時(shí)生成全景視頻、語義分割、深度圖和3D結(jié)構(gòu),并在動(dòng)作維度和閉環(huán)獎(jiǎng)勵(lì)優(yōu)化方面實(shí)現(xiàn)了擴(kuò)展。團(tuán)隊(duì)還將這一思路遷移到機(jī)器人領(lǐng)域,開發(fā)了“機(jī)器人世界模型”,用于合成軟體和繩體等復(fù)雜物體的數(shù)據(jù)。
針對機(jī)器人數(shù)據(jù)采集的需求,團(tuán)隊(duì)構(gòu)建了InterVLA基準(zhǔn)數(shù)據(jù)集,以第一人稱視角補(bǔ)充了機(jī)器人交互數(shù)據(jù)的缺失。該數(shù)據(jù)集包含視頻、動(dòng)作捕捉和文本描述等多種信息,支持人體運(yùn)動(dòng)估計(jì)和人機(jī)交互等下游任務(wù)。團(tuán)隊(duì)還提出了DreamVLA模型,通過引入“世界嵌入”中間產(chǎn)物,增強(qiáng)了視覺-語言-動(dòng)作模型的推理能力,提高了任務(wù)完成的效率和泛化性。
在方位感知能力方面,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)模塊化方案,賦予機(jī)器人類似人類的方位判斷能力。例如,在抓取任務(wù)中,機(jī)器人能夠根據(jù)物體的形狀選擇合適的抓握方式,而非機(jī)械地從正上方操作。這一改進(jìn)顯著提升了機(jī)器人的操作靈活性。
團(tuán)隊(duì)還將解耦學(xué)習(xí)應(yīng)用于世界模型中,通過提取關(guān)鍵環(huán)境因素,排除了光照、背景等無關(guān)干擾,提高了模型對任務(wù)相關(guān)信息的聚焦能力。在仿真環(huán)境中測試顯示,這一方法顯著提升了智能體的訓(xùn)練效率,為復(fù)雜場景下的模型優(yōu)化提供了新思路。
金鑫的研究轉(zhuǎn)變始于對物理空間認(rèn)知能力的追求。他希望團(tuán)隊(duì)的研究能夠從處理2D視覺信號(hào)升級到理解更高維度的視覺信息,從而讓AI獲得對物理世界的真實(shí)感知。這種轉(zhuǎn)變不僅體現(xiàn)了技術(shù)維度的提升,也為吸引跨領(lǐng)域人才提供了平臺(tái)。
在篩選實(shí)驗(yàn)室學(xué)生時(shí),金鑫最看重的是自驅(qū)力和科研熱情。他認(rèn)為,背景和能力可以通過培養(yǎng)提升,但對技術(shù)的熱愛和探索精神才是關(guān)鍵。他鼓勵(lì)學(xué)生主動(dòng)反饋研究進(jìn)展,并通過實(shí)習(xí)期相互磨合,確保團(tuán)隊(duì)成員的目標(biāo)一致。
在構(gòu)建世界模型的過程中,團(tuán)隊(duì)結(jié)合了靜態(tài)資產(chǎn)和動(dòng)態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)包括生產(chǎn)線上的物體模型,而動(dòng)態(tài)數(shù)據(jù)則涵蓋視頻、雷達(dá)點(diǎn)云和動(dòng)作捕捉信息。技術(shù)路徑上,團(tuán)隊(duì)先定義物理規(guī)則,再疊加動(dòng)態(tài)數(shù)據(jù),最后以靜態(tài)數(shù)據(jù)為基礎(chǔ),逐步構(gòu)建出能夠生成物理真實(shí)場景的模型。這一過程中,數(shù)據(jù)采集和規(guī)則嵌入是成本和技術(shù)難度最高的環(huán)節(jié)。
對于視頻生成模型能否演進(jìn)為世界模型的問題,金鑫認(rèn)為這取決于應(yīng)用場景。在游戲和娛樂行業(yè),這類模型能夠發(fā)揮重要作用;但在需要精細(xì)空間感知和動(dòng)作策略的領(lǐng)域,如機(jī)器人操作或自動(dòng)駕駛,其局限性則較為明顯。因此,技術(shù)路徑的選擇需與具體需求相匹配。
在處理不同材質(zhì)物體的物理屬性時(shí),團(tuán)隊(duì)強(qiáng)調(diào)世界模型的物理真實(shí)性。通過在仿真環(huán)境中還原玻璃、塑料等材質(zhì)的特性,智能體能夠?qū)W習(xí)到真實(shí)的物理規(guī)律,從而在數(shù)字世界中表現(xiàn)出與真實(shí)環(huán)境一致的行為。這一過程需要結(jié)合知識(shí)注入和數(shù)據(jù)驅(qū)動(dòng)的方法,確保模型對復(fù)雜現(xiàn)象的理解。











