谷歌DeepMind近日在機器人AI領域取得重大突破,其專為機器人設計的Gemini Robotics系列模型迎來關鍵升級。此次發布的Gemini Robotics 1.5與Gemini Robotics-ER 1.5形成協同系統,為機器人構建了完整的"感知-決策-執行"能力框架,標志著物理世界通用人工智能(AGI)發展邁入新階段。
作為谷歌性能最強的視覺-語言-動作(VLA)模型,Gemini Robotics 1.5展現出獨特的"思考前置"特性。該模型在執行動作前會進行邏輯推演并展示思考過程,這種類人決策機制顯著提升了復雜任務的處理能力。更值得關注的是其跨機器人知識遷移能力——通過共享學習成果,不同型號的機器人無需單獨訓練即可掌握新技能,大幅降低了AI模型的應用門檻。
與之配合的Gemini Robotics-ER 1.5則專注于環境理解與戰略規劃。作為當前最先進的視覺語言模型(VLM),該系統具備三維空間感知能力,能夠通過自然語言交互預判任務成功率。其獨創的"工具調用"功能可原生接入谷歌搜索等外部資源,自動生成包含多步驟的操作方案。在實際應用中,機器人會先通過ER 1.5模型分析環境并檢索相關信息,再將自然語言指令轉化為具體動作,由1.5模型執行精準操作。
這種技術架構體現了谷歌"AI即平臺"的戰略轉型。不同于早期自主研發機器人本體的模式,谷歌現在致力于打造機器人領域的"安卓系統",通過提供標準化AI模型服務不同廠商。機器人部門負責人卡羅琳娜·帕拉達強調,模型研發的核心在于使機器人具備"前瞻性多步思考"能力,這與英偉達黃仁勛提出的物理AI理念形成技術呼應。
行業格局正在發生深刻變化。英偉達8月推出的Jetson Thor計算平臺,明確將其定位為機器人系統的"數字大腦";初創企業Figure自主研發的Helix端到端模型,實現了視覺語義到動作的直接轉換;獲得英偉達投資的Dyna Robotics則采用環境數據驅動的學習方式,其CEO林登·高明確表示要突破物理AGI的技術邊界。這些動向表明,自研AI模型已成為通往通用機器人的核心路徑。
資本市場與研究機構同步關注到這一趨勢。中金公司研報指出,未來具備全棧技術能力的企業將主導"具身智能"標準的制定。當前行業重心已轉向"小腦+大腦"的協同系統研發,不同企業在技術路線選擇上呈現差異化特征。華泰證券分析認為,大模型技術突破引發的具身智能熱潮中,AI能力將成為機器人企業的生存關鍵,缺乏核心算法的本體制造商可能面臨淘汰壓力。
從技術演進路徑看,主流機構正基于大語言模型、自動駕駛模型和多模態大模型展開探索。國內華為、百度、科大訊飛等科技巨頭已推出成型產品,與谷歌、OpenAI、meta等國際企業形成競爭態勢。這種技術競賽不僅加速了AGI的實現進程,更在重塑整個機器人產業的競爭格局。