小米近期在人工智能領域邁出了重要一步,宣布開源其首個推理大模型——Xiaomi MiMo。這一消息不僅引起了業界的廣泛關注,也彰顯了小米在大模型技術上的深厚積累。
據悉,MiMo系列模型由小米新成立的大模型Core團隊傾力打造,其中經強化學習訓練的MiMo-7B-RL模型在數學推理和代碼競賽上表現尤為亮眼。在AIME 24-25和LiveCodeBench v5這兩個公開測評集上,MiMo-7B-RL憑借僅7B的參數量,成功超越了OpenAI的閉源推理模型o1-mini和阿里Qwen的開源推理模型QwQ-32B-Preview。
不僅如此,在相同的強化學習訓練數據下,MiMo-7B-RL在數學和代碼推理任務上的表現同樣出色,分數超過了DeepSeek-R1-Distill-7B和Qwen2.5-32B等強大對手。這一系列的卓越表現,無疑為小米在大模型領域樹立了新的標桿。
小米大模型Core團隊不僅開源了MiMo-7B-RL,還同時開源了另外三款MiMo-7B模型,包括基礎模型、SFT模型以及基于這兩種模型訓練的強化學習模型。這些模型均已在Hugging Face平臺上發布,并采用了Apache2.0許可證授權,供全球開發者免費使用。
MiMo的成功并非偶然。小米大模型Core團隊在預訓練和后訓練階段都進行了深入的創新和優化。在預訓練階段,團隊著重挖掘富推理語料,并合成了約200B tokens的推理數據。同時,采用三階段數據混合策略,逐步提升訓練難度,確保模型能夠見過更多推理模式。受DeepSeek-V3啟發,團隊還將多token預測作為額外的訓練目標,以增強模型性能并加速推理。
在后訓練階段,團隊則專注于高效穩定的強化學習算法和框架的研發。他們提出了Test Difficulty Driven Reward算法來緩解獎勵稀疏問題,并引入了Easy Data Re-Sampling策略來穩定強化學習訓練。同時,他們還設計了Seamless Rollout系統來加速強化學習訓練和驗證過程。這些創新舉措共同推動了MiMo系列模型在推理能力上的顯著提升。
MiMo系列模型的出色表現不僅贏得了業界的贊譽,也帶動了小米股價的上漲。在消息公布后,小米集團股價一度上漲4.74%,總市值達到1.29萬億港元(約合人民幣1.21萬億元)。這一成績無疑為小米在大模型領域的持續投入和創新注入了新的動力。