小米今日宣布正式推出并全面開源其自主研發的具身大模型MiMo-Embodied,該模型首次實現了自動駕駛與具身智能領域的跨域協同,為通用人工智能研究開辟了新的技術路徑。這一突破性成果針對當前行業面臨的兩大核心挑戰——機器人與車輛認知能力的互通性、室內外智能系統的協同性,提供了系統性解決方案。
傳統技術框架下,具身智能(如家庭服務機器人)與自動駕駛系統分別專注于垂直場景優化,導致知識遷移困難、能力復用率低。小米研發團隊通過構建統一建模框架,使MiMo-Embodied能夠同時處理具身智能的三大核心任務(環境交互推理、任務序列規劃、三維空間理解)和自動駕駛的三大關鍵能力(動態環境感知、多主體狀態預測、復雜路況決策),形成覆蓋全場景的智能支撐體系。
技術實現層面,該模型采用三階段創新訓練策略:首先通過多模態數據構建基礎認知能力,繼而引入思維鏈(Chain-of-Thought)推理增強復雜任務分解能力,最終通過強化學習(RL)優化真實場景部署穩定性。這種漸進式優化方案使模型在真實環境中的適應性和魯棒性顯著提升,特別是在處理開放域任務時展現出更強的泛化能力。
在權威基準測試中,MiMo-Embodied創造了新的性能紀錄。具身智能領域,該模型在17項標準測試中刷新最優成績(SOTA),特別是在工具使用預測、長期任務規劃等復雜認知任務上突破原有能力邊界;自動駕駛領域,其12項測試指標全面領先,尤其在雨雪天氣感知、突發狀況決策等極端場景下表現突出。更值得關注的是,模型在通用視覺語言任務中也取得顯著進步,證明跨域架構能有效提升基礎認知能力。
技術驗證環節,研究團隊重點測試了跨場景知識遷移效果。實驗數據顯示,經過具身智能訓練的模型在自動駕駛決策任務中準確率提升19%,而自動駕駛預訓練模型在家庭場景任務規劃效率上提高23%。這種雙向賦能效應驗證了不同領域智能體共享認知框架的可行性,為開發通用型人工智能系統提供了重要參考。
此次開源的MiMo-Embodied包含完整訓練代碼、預訓練權重和部署工具鏈,支持研究者基于不同硬件平臺進行二次開發。小米表示,通過開放核心技術框架,旨在加速構建跨領域智能生態,推動機器人、自動駕駛、智能制造等產業的協同創新。該模型的跨模態理解能力和高效訓練方案,也為中小研發團隊降低了通用人工智能的技術門檻。











