人形機器人行業正站在2025年的關鍵轉折點上。隨著具身智能技術與“物理AI”的深度融合,這類機器人不僅成為技術交匯的核心載體,更被視為繼計算機、智能手機和智能汽車之后的下一代智能終端,其背后是萬億級市場的潛力。驅動這一變革的核心,在于機器人“大腦”的突破性進展——以多模態大模型為代表的技術,正在賦予機器人前所未有的自主決策與環境交互能力。
從發展歷程看,機器人行業已邁入具身智能時代。早期的工業機器人(2008年前)僅能完成固定場景下的簡單重復任務;協作機器人(2008-2015年)和智能機器人(2015-2023年)雖實現了可移動與初步自主,但仍受限于特定任務。如今的具身智能機器人憑借人工智能的賦能,能夠在復雜環境中自主規劃并完成復雜工作。例如,它們可以聽懂人類語言后分解任務,在移動中識別物體并與環境交互,智能化程度與場景適應性實現了質的飛躍。
具身智能機器人的核心在于“大腦”“小腦”與“肢體的協同。其中,“大腦”對應決策交互模塊,負責環境感知、行為控制與人機交互等高層級任務;“小腦”是運動控制模塊,基于自動控制與機器人操作系統實現高精度運動;“肢體”則是執行模塊,集成仿人機械臂、靈巧手等部件,完成具體動作。而“大腦”的核心支撐,正是具身智能大模型——通過多模態建模、強化學習與數據訓練,它能像人類大腦一樣管理機器人的各項功能,甚至理解需求、分解任務,減少對人類操作的依賴。
多模態大模型的出現,為機器人“大腦”突破高層級控制難題提供了關鍵技術支撐。傳統單一模態模型存在明顯局限:大語言模型(LLM)僅能理解文本,無法處理視覺等物理信息;視覺模型雖擅長感知,卻缺乏推理能力。而多模態大模型(MLLM)融合了文本、圖像、視頻等多種信息,既保留了LLM的常識與推理能力,又具備視覺感知能力,更貼合人類“多感官認知世界”的方式。例如,它能直接通過圖像識別環境中的物體,結合自然語言指令生成控制代碼,讓機器人完成“從抽屜取薯片”這類需要多步驟規劃的任務——先移動到抽屜旁、打開抽屜、取出薯片,再送到用戶手中,整個過程無需人類拆解動作。
全球科技巨頭與科研團隊已紛紛入局具身大模型研發。谷歌是該領域的重要推動者,先后推出SayCan、RT-1、PaLM-E、RT-2、RT-X等系列模型:SayCan首次實現“語言指令與物理可行性結合”,避免機器人生成超出自身能力的指令;RT-1將Transformer架構與機器人控制結合,通過視覺與語言數據訓練輸出動作指令;PaLM-E融合大語言模型與視覺模型,能拆解長程任務;RT-2成為首個“視覺-語言-動作(VLA)模型”,可直接通過復雜文本操控機械臂;最新的RT-X系列通過整合22種機器人、527項技能的數據集,將任務成功率提升至此前模型的三倍。
特斯拉則憑借“端到端算法”路線展現獨特優勢。其自動駕駛系統FSD V12采用純神經網絡控制,取代了30萬行以上的傳統代碼,能直接從視頻輸入生成車輛操控指令,人工干預頻率僅為前代的百分之一。如今,特斯拉正將這套技術遷移至人形機器人Optimus——早期Optimus甚至使用與汽車相同的計算機和攝像頭,雖需微調“識別可駕駛空間”為“識別可行走空間”,但已證明車端與機器人端技術的通用性,為感知決策一體化提供了新路徑。
國內團隊同樣表現亮眼。字節跳動推出的GR-2模型先在3800萬個互聯網視頻片段上完成預訓練,學習人類在家庭、辦公室等場景的行為模式,再通過數據增強與多視角訓練微調。該模型不僅能處理105項桌面任務且平均成功率達97.7%,還能端到端完成貨箱間的物體揀選——即使面對透明、反光或柔軟物體,甚至從未見過的辣椒、葡萄等物品,也能精準抓取,展現出強大的泛化能力。
然而,具身大模型的發展仍面臨三大挑戰。一是泛化性弱,目前模型在特定場景表現優異,但切換到施工工地、嘈雜后廚等復雜場景,成功率便驟降,核心原因在于機器人操作數據量不足、對錯誤容忍度低。二是實時性差,谷歌RT-2的推理頻率僅1-5Hz,輸出運動頻率1-3Hz,導致機器人“反射弧”長達0.3-1秒,遠低于人類與實際應用需求;Figure機器人的延遲甚至達到2-3秒,影響任務效率。三是數據采集難題,真實數據收集成本高、難度大,而合成數據若生成不當,易出現與真實數據差距大或樣式單一的問題,難以支撐模型訓練。
為保障“大腦”高效運轉,云計算與邊緣計算構成了重要外延支撐。云計算憑借強大的算力與存儲能力,為大模型訓練提供保障——例如谷歌PaLM-E模型融合220億視覺參數與5400億語言參數,其訓練需依賴云計算的分布式處理能力;同時,云計算還能讓機器人隨時隨地獲取算法支持,提升靈活性。而邊緣計算則彌補了云計算的短板,它將計算能力靠近機器人終端,降低數據傳輸時延與安全風險,尤其適合工業場景——部分工廠不愿將設備數據上傳云端,邊緣計算可在本地完成數據處理,保障隱私與運行安全。目前,德州儀器TDA4x處理器、特斯拉DOJO D1芯片等邊緣算力模組,已開始應用于協作機器人與Optimus,推動“云-邊”協同成為主流架構。
隨著2025年人形機器人進入小批量量產階段,全球數千臺機器人將進入工廠場景訓練,這無疑會加速“大腦”的迭代進化。未來,隨著大模型泛化性、實時性的突破,以及云邊協同架構的完善,人形機器人有望在工業制造、家庭服務等領域廣泛落地,真正開啟萬億級市場的想象空間,成為改變人類生產生活方式的重要力量。