小米公司近日在人工智能領域取得重要突破,其MiMo團隊成功研發出全球首個打通自動駕駛與具身智能兩大領域的跨具身基座模型——MiMo-Embodied。該模型不僅實現開源共享,更在29項基準測試中全面領先,標志著小米在空間智能領域的技術實力邁入新階段。
這項由MiMo團隊主導的研究,由新任負責人羅福莉博士領銜核心研發工作,智能駕駛首席科學家陳龍擔任項目總負責人。研究團隊通過創新性地將具身智能的室內操作能力與自動駕駛的戶外場景理解相結合,成功構建出統一的多模態基礎模型,有效解決了傳統模型在跨領域遷移時面臨的領域鴻溝問題。
技術架構方面,MiMo-Embodied采用三模塊協同設計:視覺編碼模塊使用Vision Transformer處理單幀圖像、多幀序列及視頻輸入;投影模塊通過多層感知機將視覺特征映射至語言模型空間;核心推理模塊則依托大語言模型實現文本理解與視覺信息的深度融合。這種設計使模型能夠同時處理環境感知、空間推理和任務規劃等復雜任務。
數據構建策略是該模型成功的關鍵。研究團隊整合了三大維度數據:通用多模態數據涵蓋圖像、視頻及長文本;具身智能數據包含可供性預測、任務規劃等專項數據集;自動駕駛數據則涉及環境感知、交通預測等真實場景信息。通過這種跨領域數據融合,模型得以建立全面的環境認知能力。
訓練策略采用漸進式四階段方案:首階段通過具身智能數據建立基礎理解能力;第二階段加入自動駕駛數據強化空間推理;第三階段引入思維鏈訓練提升復雜問題處理;最終通過強化學習優化決策精確度。這種訓練方式使模型性能隨階段推進穩步提升,最終在各項測試中達到最優水平。
在具身智能測試中,模型在可供性預測和空間理解任務上表現突出,顯著優于通用多模態模型和專用具身模型。自動駕駛測試顯示,其在感知、預測和規劃三大核心能力上均達到行業領先水平,特別是在復雜交通場景處理和動態物體交互方面展現卓越魯棒性。
現實場景驗證環節,模型在具身導航任務中展現出精準的對象定位能力,在操作任務中表現出強大的空間推理水平。自動駕駛測試中,模型成功完成交叉路口轉彎、彎道掉頭等高難度動作,其決策連貫性和場景適應性獲得研究團隊高度評價。特別是在復雜交互場景中,模型性能提升幅度超過基線模型30%。
這項突破性成果的研發團隊陣容堪稱豪華。項目負責人羅福莉博士作為95后AI領域新銳,先后在北京師范大學和北京大學完成本碩學業,曾在阿里巴巴達摩院主導多語言預訓練模型開發,后加入DeepSeek參與標桿模型研發。智能駕駛首席科學家陳龍則擁有國際頂尖自動駕駛公司工作經歷,曾主導端到端自動駕駛模型研發,在機器學習規劃器預訓練領域具有深厚積累。










