小鵬汽車近期在全球首秀中推出了一款定價20余萬元的純電動車型,其搭載的2200+TOPS算力系統引發了業界的廣泛關注與熱議。這一前所未有的決策,雖然贏得了眾多贊嘆與崇拜,但也不乏質疑之聲。
質疑者認為,小鵬通過3顆自研芯片堆砌出如此高的算力,或許只是一種“堆料”行為。他們提出疑問:單純追求算力提升,究竟能帶來多大的實際意義?
對于這一疑問,小鵬在發布會上已通過大師兄之口給出了明確回應:核心在于大模型的本地部署。這一策略包含兩個關鍵點:一是大模型,二是本地部署。
在AI時代,提升能力往往需要依賴更大規模的模型。根據Scaling Law定律,模型參數量越大,效果往往越好。然而,現階段受限于車規級芯片的算力,車端部署的模型通常經過輕量化處理,實際部署的模型參數量常在50億以下。例如,理想汽車的VLA司機大模型規模僅為40億,尚不能算作真正意義上的“大模型”。而小鵬的自動駕駛云端基座模型規模高達720億,這才是真正的大模型,但受限于算力,無法直接在車端部署。
小鵬汽車深知,有能力卻施展不開是極為痛苦的。因此,他們致力于解決的主要矛盾,就是將真正的大模型部署到車端。為此,他們采用了3顆圖靈AI芯片,提供2200TOPS的算力,最高可支持300億參數量的模型。
300億參數是什么概念?以小鵬的基座模型為例,從720億縮減到300億,或許只需進行結構化剪枝和MoE轉換即可實現;但從720億縮減到70億,則可能需要加入量化、蒸餾、深度剪枝等技術,幾乎相當于重構模型,性能差距也會十分顯著。
有人可能會問,既然現在是5G時代,為什么不采用云端大模型來降低車端算力需求?這實際上涉及到了本地部署的必要性。
對于LLM等應用來說,云端部署確實具有顯著優勢,更大的模型能帶來更好的性能,可以并行處理多個用戶需求,降低單次任務成本。然而,對于行車模型來說,對時延和幀數的要求極高。小鵬汽車CEO何小鵬在會后群訪中提到,VLA模型至少要達到每秒20幀,才能保證足夠的行車能力。這意味著,從感知到數據傳輸、云端處理、結果回傳,整個路徑的總耗時必須在50毫秒內完成,顯然云端部署難以實現這一點。
即便通過技術解決了延遲通信問題,也難以完全避免網絡波動甚至通訊失效的情況。一旦發生這種情況,車端系統可能會出現降級甚至癱瘓,不僅無法保證用戶體驗的一致性,還會帶來極大的安全風險。同時,全球化部署也是本地部署的一個重要考量因素。全本地部署、無聯網運行意味著沒有數據傳輸的合規問題,這使得模型具備在全球范圍內快速部署的能力。
大模型的本地部署被認為是車端智能駕駛的最優路線。當然,小鵬汽車并沒有激進地直接將基座模型搬上車,而是選擇先將VLA+VLM搬上車。在G7車型上,小鵬采用2顆圖靈芯片(共1400+TOPS)運行VLA模型(具備自主強化學習能力的VLA-OL),另1顆圖靈芯片(700+TOPS)運行VLM。圖靈芯片之間通過PCI-E通信。
這種分工設計源于小鵬對車乃至機器人智能架構的理解。他們認為,人腦有左右腦、腦干、小腦等區分,對于車和機器人來說,以能力對算力進行區分也是合理的。在這種架構下,VLA負責運動和決策,相當于大腦和小腦;而VLM負責整車對世界的感知,如接受駕駛員指令、識別路牌等,對算力需求相對較低。
即便如此,本地部署的VLA OL+VLM也展現了巨大的想象空間。例如,何小鵬在發布會上提到的“智能駕駛能力比Max車型高10倍以上”,“VLA-OL讓車輛主動思考、理解世界”,“VLM讓車像一個真實的人一樣”等等。這一切的基礎,都離不開大算力的支持。