全球首個城市級常態化運營的人形機器人示范區近日在北京落地,標志著具身智能技術正式走進大眾日常生活。其中,由北京銀河通用機器人有限公司打造的“銀河太空艙”——一家完全由機器人運營的無人超市,成為焦點。這家無人超市不僅展示了機器人自主工作的能力,更在工業、零售等多個場景實現了規模化應用,引發了業界對機器人技術發展的廣泛討論。
在機器人技術快速發展的當下,一個現實問題逐漸浮現:絕大多數機器人仍依賴人工遙控或預編排程序,難以真正實現自主工作。然而,銀河通用的機器人Galbot卻打破了這一局限,它不僅能夠擺脫遙控器,還能在復雜環境中自主完成任務。這一突破背后,是具身智能技術對數據的高度依賴——無論是從動作智能向認知智能的轉變,還是提升機器人的泛化性和魯棒性,數據的質量和數量都起著決定性作用。
銀河通用創始人兼首席技術官王鶴指出,當前機器人企業在技術路線上逐漸分化。一類以宇樹科技為代表,專注于機器人運動能力的展示,如舞蹈、拳擊等;另一類則以銀河通用為代表,更注重機器人在實際場景中的干活能力。他特別提到,許多機器人看似精彩的表演,實際上是通過遙控或視頻剪輯實現的,并非真正的自主智能。
以工業場景為例,銀河通用的機器人已在流水線搬運、分揀等環節實現規模化應用。在零售領域,北京海淀已有10多家配備人形機器人的智慧藥房投入運營,并計劃年內在全國開設100家。這些機器人還能自主售賣零食、咖啡等商品,真正實現了“無人化”服務。
針對“demo先行、落地乏力”的現象,王鶴解釋說,演示視頻與實際產品的差距主要體現在泛化性和硬件可靠性上。演示視頻通常在受控環境中拍攝,機器人只需完成特定任務;而實際產品則需要在不同物體、環境和光線條件下穩定工作。如果機器人頻繁需要人工維修,也難以大規模投入使用。
要實現機器人自主工作,關鍵在于具備自主執行能力的模型“大腦”和可靠的硬件性能。王鶴透露,銀河通用今年初通過10億級合成大數據,端到端訓練了一個VLA大模型,使機器人能夠根據視覺輸入實時調整動作。6月,公司又推出了端到端導航大模型,賦予機器人“聽—看—懂—走”的閉環運動能力。
在數據獲取方面,王鶴提出了一個創新方案:99%的數據可通過高質量合成數據解決,僅1%需要真實遙操采集的數據。這一方案不僅降低了數據采集成本,還提高了數據的多樣性。他強調,高質量數據應具備多元性,能夠體現柔性物體的操作,并具備場景泛化性。
對于機器人商業落地的難點,王鶴認為,找到可批量復制的場景是關鍵。他預測,未來3年內,能夠找到突破性場景的企業將留在競爭行列,否則將面臨淘汰。同時,他指出,如果能夠徹底解決抓取、移動、放置等基礎操作的泛化性問題,將打開數千億元的市場,使機器人在零售、前置倉、車廠分揀等多個場景中發揮作用。
在討論機器人智能與人類智能的關系時,王鶴以猩猩為例,說明并非所有思維活動都依賴語言。他指出,人類的思維是一個復雜的認知過程,涉及視覺思維、空間思維、情感思維等多個方面。語言能夠促進思維的傳播,但思維能力、語言能力和操作能力共同構成了智能的核心。
對于“智能”的定義,王鶴給出了簡潔的答案:智能就是解決問題的能力。無論是人類、動物還是機器人,遇到問題后能給出解決辦法的能力,就是智能。他舉例說,面對一瓶飲料,人類通過語言溝通請人打開,動物徒手打開,機器人通過精確的力控制打開——這些方式不同,但都體現了智能。