隨著人工智能技術(shù)從虛擬世界向?qū)嶓w場(chǎng)景延伸,“具身智能”正成為科技領(lǐng)域的新熱點(diǎn)。這種技術(shù)讓機(jī)器不再局限于數(shù)據(jù)處理,而是能夠像人類一樣感知物理環(huán)境、自主完成任務(wù)。作為具身智能的核心載體,人形機(jī)器人的“大腦”研發(fā)水平,已成為決定行業(yè)發(fā)展的關(guān)鍵因素。
人形機(jī)器人的智能系統(tǒng)由大腦、小腦和肢體三部分構(gòu)成。肢體負(fù)責(zé)環(huán)境感知與動(dòng)作執(zhí)行,小腦專注于運(yùn)動(dòng)控制的精準(zhǔn)性,而大腦則是整個(gè)系統(tǒng)的“決策中樞”。以AI大模型為核心的大腦系統(tǒng),能夠根據(jù)環(huán)境變化和任務(wù)需求自主規(guī)劃最優(yōu)方案。例如,家庭服務(wù)機(jī)器人可通過(guò)視覺(jué)識(shí)別障礙物完成導(dǎo)航,工業(yè)機(jī)器人能理解指令并拆解復(fù)雜任務(wù),甚至通過(guò)語(yǔ)言或手勢(shì)與人類實(shí)時(shí)交互。
與通用大模型(如ChatGPT)不同,機(jī)器人大腦需要解決物理世界的現(xiàn)實(shí)問(wèn)題。通用大模型擅長(zhǎng)文本生成和步驟梳理,但無(wú)法理解物理規(guī)則——它能描述“如何拿水杯”,卻不會(huì)考慮杯子重量對(duì)手部受力的影響,或桌面空間是否足夠。機(jī)器人大腦必須整合傳感器實(shí)時(shí)數(shù)據(jù)、物理動(dòng)力學(xué)規(guī)律和硬件限制,其研發(fā)難度遠(yuǎn)高于通用大模型。
目前,行業(yè)內(nèi)形成了三條主流技術(shù)路徑。“大腦+小腦分層”路線是相對(duì)成熟的方向:大腦由多模態(tài)大模型擔(dān)任,負(fù)責(zé)任務(wù)理解和流程規(guī)劃;小腦則專注于運(yùn)動(dòng)控制,通過(guò)分工實(shí)現(xiàn)“思考”與“執(zhí)行”的協(xié)同。例如,在整理房間的任務(wù)中,大腦判斷需要先收衣服再擦桌子,小腦則精確調(diào)整機(jī)器人手臂的角度以拿起易碎物品。
另一條路徑是“端到端VLA技術(shù)”,試圖用一個(gè)模型打通“感知-動(dòng)作”全流程。機(jī)器人看到杯子后,模型可直接輸出“伸手-握杯-起身”的動(dòng)作指令,無(wú)需中間步驟拆分。這種方式靈活性強(qiáng),但目前更適合短時(shí)間、簡(jiǎn)單任務(wù),面對(duì)“打掃全屋”等復(fù)雜長(zhǎng)程任務(wù)時(shí)仍有局限。
“世界模型”是更前沿的探索方向,目標(biāo)是讓機(jī)器人大腦建立對(duì)物理世界的“認(rèn)知地圖”。例如,預(yù)測(cè)“推動(dòng)桌子后椅子會(huì)移動(dòng)”或“水杯傾斜會(huì)漏水”等規(guī)律,從而提前優(yōu)化動(dòng)作。但由于真實(shí)世界的物理規(guī)則過(guò)于復(fù)雜,這一研究仍處于早期階段,尚未實(shí)現(xiàn)大規(guī)模應(yīng)用。類腦智能(模擬人腦結(jié)構(gòu)處理復(fù)雜任務(wù))和腦機(jī)接口(建立人機(jī)信息交互通道)等創(chuàng)新方向,也為機(jī)器人大腦的發(fā)展提供了更多可能性。
全球范圍內(nèi),企業(yè)正加速布局機(jī)器人大腦研發(fā)。專業(yè)公司如北京通用人工智能研究院推出了“通智大腦”系統(tǒng),并聯(lián)合多家機(jī)器人企業(yè)成立聯(lián)盟,推動(dòng)技術(shù)與硬件的適配;美國(guó)的Physical Intelligence聚焦家用場(chǎng)景,其π0.5模型能讓機(jī)器人在陌生廚房自主完成清理,甚至從其他機(jī)器人那里“學(xué)習(xí)”動(dòng)作經(jīng)驗(yàn)。
通用大模型企業(yè)也在延伸技術(shù)邊界。谷歌、OpenAI和字節(jié)跳動(dòng)等公司嘗試將自身的大模型能力應(yīng)用于機(jī)器人領(lǐng)域,但它們?cè)谖锢硎澜鐖?chǎng)景理解方面仍需加強(qiáng),例如如何讓模型準(zhǔn)確判斷“不同材質(zhì)的衣服該用多大力度折疊”。
機(jī)器人企業(yè)則采取自主研發(fā)策略。特斯拉的Optimus人形機(jī)器人近期展示了精準(zhǔn)的武術(shù)動(dòng)作,能自主格擋、反擊,其核心在于搭載了與自動(dòng)駕駛同源的大模型,并整合了xAI的Grok模型提升邏輯推理能力。該機(jī)器人不僅能聽(tīng)懂“把客廳玻璃杯裝滿40度以下溫水”等復(fù)雜指令,還能根據(jù)用戶情緒調(diào)整動(dòng)作幅度。國(guó)內(nèi)智元機(jī)器人已實(shí)現(xiàn)通用具身機(jī)器人量產(chǎn),并推出基座模型,能通過(guò)人類操作視頻快速學(xué)習(xí)新技能。
盡管進(jìn)展顯著,機(jī)器人大腦研發(fā)仍面臨多重挑戰(zhàn)。行業(yè)普遍認(rèn)為,當(dāng)前限制人形機(jī)器人規(guī)模化應(yīng)用的核心是模型本身的技術(shù)瓶頸,而非數(shù)據(jù)問(wèn)題。這一臨界點(diǎn)可能在未來(lái)1-2年或3-5年內(nèi)到來(lái)。數(shù)據(jù)獲取是另一大難題:機(jī)器人大腦需要的是與物理世界交互的“行為數(shù)據(jù)”,如抓取物品的力度或移動(dòng)時(shí)的環(huán)境反饋,這類數(shù)據(jù)遠(yuǎn)不如互聯(lián)網(wǎng)文本或圖片容易獲取。真實(shí)數(shù)據(jù)被稱為“黃金數(shù)據(jù)”,但采集成本高,且不同機(jī)器人的硬件差異導(dǎo)致數(shù)據(jù)格式不統(tǒng)一,難以復(fù)用。仿真數(shù)據(jù)雖能大規(guī)模生成,卻難以還原真實(shí)世界的復(fù)雜情況,如布料柔軟度或易碎品受力反饋。
訓(xùn)練難度同樣超出預(yù)期。機(jī)器人與物體的物理接觸會(huì)讓問(wèn)題復(fù)雜度呈指數(shù)級(jí)上升。例如,拿起杯子需同時(shí)考慮重力、摩擦力和手部關(guān)節(jié)活動(dòng)范圍,任何參數(shù)偏差都可能導(dǎo)致任務(wù)失敗。如何讓模型具備“通用性”,在未見(jiàn)過(guò)的場(chǎng)景中自主應(yīng)對(duì)問(wèn)題(如從未清理過(guò)的臥室判斷“哪些物品該收納”),仍是行業(yè)需要突破的核心難題。







