具身智能商業閉環的核心,是開發者。
「2026 年將是具身智能的下半場,下半場的核心是應用。應用的供需兩側都在走向成熟。」
在業界普遍認為具身智能行業還處于「技術卡點」階段的時候,星海圖 CEO 高繼揚給出了具身智能「下半場」的一些判斷。作為國內備受關注的機器人公司,星海圖自成立短短兩年已經拿到超過 1 億美元融資。
「過去兩年基本上是全民探索具身智能可用場景的階段。大大小小的企業,所有潛在的用人單位,都在思考如何用具身智能來優化自己的工作流程。許多應用場景正逐漸變得清晰。同時,整個市場的預期也回歸到了一個比較理性的狀態。」
同時,對于追求「通用人形機器人」的「通用」,高繼揚也給出了一些不一樣的看法。高繼揚認為,從商業和產品價值的角度來看,當前階段具身智能最有價值的是實現對象泛化和動作泛化。而實現本體泛化在商業上的重要性沒那么高。
在 AGI Playground 大會上,高繼揚分享了近期他在具身智能領域的最新思考,輸出了一些非常精彩觀點:
具身智能進展緩慢,背后的根本原因在于具身智能所需要的高質量數據是缺失的。而數據缺失,是因為缺少高質量、合適的本體。
具身智能,首先要有一個「正確的本體」,一個標準的本體。
把數據采集當作一項生產活動來看待。
具身智能基礎模型在第一階段會呈現出來的范式是,在垂直場景的簡單任務上實現零樣本泛化,在復雜任務上實現少樣本泛化。這里的「少樣本」,定義為完成新任務所需要的增量數據條數,大概在 100 條這個量級。
從商業和產品價值的角度來看,在當前階段,具身智能最有價值的是實現對象泛化和動作泛化。在當前階段,實現本體泛化在商業上的重要性沒那么高。
以下是現場分享實錄,經 Founder Park 整理后發布。
01
具身智能是不能有短板的游戲
具身智能并非一個「純軟件」的賽道,它是一個軟硬件深度結合的領域。因此,我們稱之為一個「沒有短板的游戲」,其具體表現就是我們所說的「from motor to model」(從電機到模型)。
具身智能是一個從電機、到整機、再到數據和模型等一系列要素的整合。如果我們做一個對比,會發現大語言模型有一個顯著特點,那就是「模型即產品」,模型本身直接決定了產品的體驗。而且,在訓練大語言模型時,所需要的數據很多都可以在互聯網上公開獲取,因為人類在過去二十多年里積累了海量的多模態數據。隨著模型能力的提升,應用層產品也很快就進入了爆發期。
然而,當我們回到具身智能領域,會發現智能進展比較緩慢。我認為,背后的根本原因在于具身智能所需要的高質量數據是缺失的。而數據缺失,又是因為缺少高質量、合適的本體,也就是我們常說的「整機」。再往上看,會發現整個供應鏈都是缺乏且不成熟的。所以說,從供應鏈的零部件、電機,到整機,再到遙操作和數據,具身智能所需要的各項前期工作都還沒有完全成熟。
這是具身智能與大語言模型在發展上的一個顯著區別。這也印證了剛剛所講的,「整機」加上「智能」才構成一個完整的產品。只有模型和算法,并不能構成一個可以為用戶提供價值的「商品」。因此,做具身智能的核心是「整機+智能」的定位。
在這個定位之下,未來兩到三年,具身智能應該為客戶和世界提供什么樣的產品形態?
我認為,中間這一列所展示的「整機+預訓練模型+后訓練工具」的組合,是一種概率很高的產品形態。這里的后訓練工具,可以理解為是一套遙操作設備,用來遙控機器人完成特定領域或場景下的各種任務。
那么,它帶給客戶的產品體驗應該是什么樣的?就像培訓一位新員工一樣,我們用遙操作設備在任務場景里采集幾條到幾十條數據,用這些數據去微調(fine-tune)我們的預訓練模型,然后將這個模型部署到整機上,這臺整機就能完成我們剛才所提到的那些場景化任務了。
整個體驗就像培訓一位新員工。當這樣的產品形態逐漸成熟之后,下游的應用一定會形成一個巨大的生態。在這個生態中,我們星海圖始終堅持,自己既是開發者,也致力于賦能其他開發者,共同推動。所以,我們在業務上一直采取「To B, To D」的模式:面向企業(To Business)客戶,我們提供「整機+智能」的解決方案;面向開發者(To Developer),我們則將內部使用的所有工具鏈都開放出來。
02
有「正確的本體」,才能生產「好數據」
要做好這一切,背后所需要的供給,是從電機(motor)、到整機、再到遙操作的整個系統、數據管線,最后到模型這五個層面的全面成熟。只有這五層都準備好了,下游的應用才有可能繁榮起來。回到當下這個時間點,具身智能發展過程中最主要的問題,我們認為還是數據問題。其實許多算法要素已經具備,而「算法+數據=模型」,現在最大的瓶頸就在于數據;再往前追溯,根源在于沒有一個在「正確本體」上產生的數據。
我們回顧一下 ImageNet 這件事。ImageNet 的出現已經是十幾年前了,正是因為計算機視覺領域有了 ImageNet 這樣大規模、高質量的數據集,才催生了后續我們看到的 AlexNet、VGG 等一系列代表性工作,也開啟了深度學習的第一次崛起。
我覺得,這個過程給整個業界帶來的最大經驗(lesson learn)就是:要想有好的算法和模型,前提是要有好的數據。先有高質量數據,再有高質量模型。這一點,無論是大語言模型還是自動駕駛領域,我們都看到了類似的規律。而具身智能領域,我們看到一個特殊之處,那就是它所需要的數據并不是天然存在的。
具身智能發展所需的數據,不是互聯網上的圖片、文字、視頻這類相對低質量的數據,而是更需要「本體與物理世界交互」的數據,比如操作一個物體、開門、關門、抓取、放置等。這就像一個嬰兒出生后,通過與物理世界不斷地交互、摸索,逐漸積累經驗,在這個過程中積累下來的,才是我們所說的具身智能需要的高質量數據。而要做到這一點,就需要一個標準的硬件,所以我們強調,首先要有一個「正確的本體」,一個標準的本體。
只有在這個本體之上,我們才能去積累與物理世界交互的數據,然后定義任務、定義基準(Benchmark),后續模型的發展才能進入一個相對高速的時期。我們就是遵循著這樣的思路,從創業之初,著手去定義我們的產品。因為我們的重點是做雙臂操作,在具身智能領域,像宇樹科技可能更側重于雙足的運動控制和全身運動控制,而我們則聚焦于讓機器人能「干活」,也就是雙臂操作。
在雙臂操作領域,我們定義本體和整機時,一個很核心的理念就是「智能定義本體」。
那么,雙臂操作究竟需要什么樣的本體呢?可以給大家舉一些例子,這里面其實有很多從智能本身出發,對硬件提出的需求。比如,我們的雙臂系統采用的是低減速比電機和行星減速器,這與傳統采用諧波減速器的機械臂系統有很大區別。我們的設計更能滿足像人一樣的高動態性能,更符合模仿學習的需求。
在雙臂系統上,我們追求低減速比、高動態、大負載。很多時候,為了讓算法達到更好的效果,我們甚至需要直接修改底層的驅動(FOC)層。在軀干部分,我們則采用了高減速比的電機,并且都帶有抱閘。因為我們觀察到,在作業過程中,一旦發生緊急掉電等情況,雙足機器人可能會直接癱倒在地,這種情況是我們不希望發生的。所以,我們軀干的四個電機都采用了高減速比設計,使其本身就具備較好的支撐性,同時還配有抱閘,確保在緊急斷電時機器人不會倒下,而是能撐在原地。
還是機器人的底盤部分。人類雙腿有一個很重要的作用,就是能夠全向移動。比如,我橫著跨一步,或者斜著往前走一步,都無需轉身。這種跨步橫移、全向移動的能力,對于上半身的操作而言至關重要。反觀傳統的輪式底盤,比如 AGV,大多采用兩輪差速驅動,需要先轉身,再前進一步,然后再轉回來,這整個過程與雙臂操作的配合是脫節的。因此,我們首創了六電機、三舵輪的全向移動底盤技術。
這就是我們圍繞雙臂操作的智能需求,重新去定義的整機本體。現在已經有了 R1、R1 Pro 和 R1 Lite 三款產品,特別是 R1 Lite 是我們和 Physical Intelligence 團隊聯合定義的,他們也在我們平臺上開發了 Π-0.5 模型。
我再強調下剛才的觀點:要想有好的數據,必須先有正確的本體。
03
要先實現對象和動作泛化,
場景和本體泛化當前沒那么重要
有了本體之后,我們到底需要什么樣的數據?現在很多具身智能領域得公司在獲取數據時,第一反應是去建一個自采場。但我們認為,預訓練所需要的是開放場景下的真實數據。因此,我們沒有大規模地去構建采集場,而是選擇直接進入真實世界環境。
目前,我們有幾十臺機器人,部署在酒店、公園、食堂、商場等真實場景中采集數據。要做好這件事并不容易,因為它涉及到大量的工具、數據生產運營和工藝問題。我們是把數據采集當作一項生產活動來看待的。
既然是生產活動,如何完成一次遙操作?這里面涉及工藝問題,就像如何完成一次裝配、組裝一個零部件一樣,有許多工藝細節需要優化。工藝問題解決之后,就是如何運營整個團隊,以及需要什么樣的工具鏈來支撐我們的數據生產活動。
到今年第三季度,我們將累計獲得一萬小時、由我們的本體與物理世界交互產生的數據。這些數據覆蓋的操作對象將超過 1000 個,任務數超過 300 個,這些構成了我們進行具身智能基礎模型預訓練最重要的數據基礎。并且,所有的數據都將圍繞著兩個在我們看來是「正確」的本體 R1 Pro 和 R1 Lite 來采集,我們也會有步驟地將這些數據釋放并開源給整個社區。
有了本體和數據之后,就是智能的部分了。在基礎模型訓練方面,我們堅持兩個核心原則:一是端到端,二是真機數據為主。
先解釋這「兩個端」分別是什么:一端是視覺(Vision)和指令輸入(Language),這個指令可以是自然語言,也可以是結構化的編碼指令;另一端是 Action,也就是機器人最終的動作輸出。我們希望模型是基于這種完整閉環的輸入輸出來訓練的。整體的訓練架構,其實和我們看到的其他領域的基礎模型有一些相似——也是「預訓練 + 后訓練」的結構。
特別解釋一下,對于具身智能而言,預訓練到底是在做什么?預訓練是在解決「本體與物理世界交互的基本法則」這個問題。打個比方,這更像是一個嬰兒從出生到三五歲,再到上小學的這個過程。他不斷地與物理世界接觸、碰撞、摸索,學習如何與世界交互,如何支配自己的身體。這就是預訓練。
而后訓練,則更像是在一個特定的崗位上,去執行特定的任務。這就是我們理解的,具身智能中預訓練和后訓練之間的區別與關系。
具體到預訓練的模型結構,我們采用的是一個「快慢結合」的模型結構,慢的部分我們叫做「慢思考」。這種「快慢結構」是由我們星海圖的聯合創始人趙行博士在自動駕駛駕駛領域首創的,后來這一結構也被用在具身智能領域。
「慢思考」主要負責進行邏輯層面的思考、任務拆解以及與人交互,這部分工作更多地可以由多模態大語言模型(VLM)來完成。比如,谷歌發布的 Gemini Robotics 模型,就是在 VLM 和「慢思考」領域一項非常重要的工作。
「快執行」這一部分,是 VLA 或具身智能公司目前真正需要聚焦解決的問題。它相當于一個實時的執行閉環、反饋控制以及感知識別等,這些功能都被整合在「快執行」模型中。「快執行」模型的參數量一般在 10 億量級,而慢思考的 VLM 的參數量級可能是百億甚至更大。也正是因為這樣的模型架構,在終端部署時,會出現云、廠、端協同工作的問題,同時也存在很多工程優化方面的問題。
后訓練方面,更多是圍繞特定任務。比如,「拿起一個杯子倒一杯水」。圍繞這樣的任務,我們可能會收集 100 到 200 條數據,每一條數據就是對這個任務的一次完整執行。
經過這一系列的預訓練和后訓練后,我們期望看到的效果是:在垂直場景的簡單任務上實現零樣本泛化,在復雜任務上實現少樣本泛化。這里的「少樣本」,我們定義為完成新任務所需要的增量數據條數,大概在 100 條這個量級。這就是我們看到的,具身智能基礎模型在第一階段會呈現出的一個范式。
預訓練到底是怎么做的,給大家展示一些案例。預訓練并不局限于特定的任務。我們現在的做法是,當機器人到達一個新場景后,我們會觀察人類在這個場景里會做什么,甚至利用大語言模型去定義各種各樣的任務。有了這些任務之后,組織我們的數據生產團隊,通過遙操作去采集數據。比如,清理桌面、整理臺面,甚至把一件衣服掛到柜子里。下圖右下角這個是在開一扇窗戶。還包括拿取和放置物品、給一個假人戴上毛線帽、打開冰箱門并放入東西,甚至使用一些工具來完成工作等等。
這就是我們所說的預訓練階段,本質就是讓本體(整機)在盡可能多的場景中,圍繞盡可能多的任務,與物理世界進行交互、理解和學習。在這個階段,我們需要的數據量級是幾千到上萬小時的交互數據。
最后,我想談一個非常重要的問題,這也是具身智能在發展過程中,技術與商業逐漸結合的體現。從技術的角度來說,具身智能的「智能」部分,核心是要解決泛化問題。那么,具身智能的泛化究竟是什么?歸納為「四個泛化」:對象泛化、動作泛化、場景泛化和本體泛化。這四個泛化組合在一起,構成了具身智能在技術上的終局形態
「對象泛化」指的是,同樣是抓取和放置的動作,我今天抓一個瓶子,明天可以抓一個杯子,后天可能換成一個手機或某個小物件;「動作泛化」指的是,對于同一個杯子,我今天可以把它拿起來放到某個位置,明天我可能要用它倒水,后天我可能需要把杯蓋擰開;「場景泛化」是指,同樣一個任務,今天我是在這張桌面上完成,明天換了另一張桌面、另一個背景,它依然能夠完成;最后是「本體泛化」,即我訓練出的模型,不僅可以在一種類型的本體上工作,也可以在另一種類型的本體上運行。這四個方向如果都做到了,具身智能的智能問題就算是被解決了。但從另一個角度,即從商業和產品價值的角度來看,在當前階段,最有價值的是實現對象泛化和動作泛化。
為什么場景泛化和本體泛化在技術上很重要,但在商業上卻可能沒那么重要?因為當我們審視具身智能真正的工作場景時,會發現有相當比例的場景是「工站式」的,即在某種相對固定的工位或場景里,提供序列化的工作和服務。在這種情況下,場景泛化的挑戰性遠沒有自動駕駛那么強。自動駕駛的車輛需要在馬路上到處跑,場景泛化的需求和難度都要大得多。
而本體泛化,正如我剛才所說,具身智能的產品形態是「整機+智能」,而不是純模型。既然產品形態是「整機+智能」,那么本體泛化在其發展的第一個階段,商業上的重要性沒那么高。所以我認為,在當前階段,具身智能應優先解決對象泛化和動作泛化。這兩個問題一旦解決,就有相當比例的應用場景可以被開發出來,其商業價值也能夠得以釋放。
04
市場回歸理性,商業閉環的核心在于開發者
最后一部分,談談具身智能的應用和商業化的問題。在我們公司內部,特別重視開發者群體,具身智能商業閉環的核心變量在于開發者群體。
背后的邏輯是,具身智能領域要繁榮,前提一定是應用繁榮,因為應用才能創造價值。而應用繁榮的前提,是有一群充滿活力、非常聰明的開發者在創造各種各樣的應用。在這個過程中,開發者們需要支持和幫助。我們自己走過這條路,深切感受到具身智能的鏈條非常長,從供應鏈、電機制造、整機、遙操作到數據等等,把這些前期工作都做完,我們才能談論做模型、做應用。但我們不能要求每一位開發者都從頭把這些工作完整地做一遍。所以,我們的一個理念是:星海圖自己是開發者,我們面向場景去做應用;同時,我們也盡可能地將我們的工具和整機提供出來,幫助全球的開發者與我們一起,共同把這件事做成。
星海圖目前在全球有 50 多個客戶和合作伙伴,我們正逐漸構建一個集本體、數據、模型、應用于一體的商業循環。
在今年 8 月份舉辦的 WRC(世界機器人大會)上,我們將開源我們的第一個具身基礎模型,是我剛才介紹的一整套本體、數據管線和訓練技術打造出來的模型產品。接著 9 月份,在 CoRL(Conference on Robot Learning)上,我們也將進一步開放我們的數據集與完整的訓練模型。這兩次重要的開源發布,我們希望能夠對具身智能的開發應用起到激活的作用。
具身智能現在已經走到了上半場的結尾,我們即將迎來下半場。下半場一定是「應用為王」。
2026 年將是具身智能應用的「元年」。
從供給側來看,機器人本體正在逐漸成熟和穩定。其次,模型開始具備初步的泛化能力。這里有幾個定量的指標,首先是精度,它能完成什么精度的動作?目前還無法達到毫米級,但厘米級的操作精度是可以實現的;其次是速度,大約能達到人類執行速度的 70%到 80%;最后是泛化性,我們評價泛化性的指標是「學習一個新任務需要多少樣本」,現在的水平大概在百條這個量級。
當這三個指標構成的智能供給形成之后,也就是基礎模型成熟后,下游的應用將呈現出爆發式增長的狀態。同時,還有一個關鍵因素,具身智能的開發者群體正在全球范圍內快速增長。
從需求側看,過去兩年基本上是全民探索具身智能可用場景的階段。大大小小的企業,所有潛在的用人單位,都在思考如何用具身智能來優化自己的工作流程。許多應用場景正逐漸變得清晰。同時,整個市場的預期也回歸到了一個比較理性的狀態。可能兩年前,當特斯拉剛發布一些人形機器人的演示視頻時,大家想的是人形機器人馬上就要進入工廠,把所有工人都替換掉。但現在我們看到,大家回歸了理性,更多地是著眼于一些局部環節,先從工站式的、以及面向人的服務型環節入手,先把商業模型「跑通」,再逐漸走向規模化量產和應用。
基于以上判斷,我認為,2026 年將是具身智能的下半場,而下半場的核心就是應用。應用的供需兩側都在走向成熟。