小米公司近期在人工智能領域取得了突破性進展,正式宣布將其專為推理能力打造的大模型“Xiaomi MiMo”面向全球開源。這一舉措不僅彰顯了小米在AI技術上的雄厚實力,更標志著其在推理模型研發上的重大飛躍。
“Xiaomi MiMo”的問世,旨在突破當前預訓練模型在推理能力上的局限性。在多個公開測評集中,該模型以僅70億參數的規模,展現出了超越大型閉源及開源推理模型的卓越性能。特別是在數學推理(AIME24-25)和代碼競賽(LiveCodeBench v5)上,MiMo的表現尤為亮眼,成功擊敗了OpenAI的o1-mini和阿里云的QwQ-32B-Preview等強勁對手。
在強化學習領域,MiMo同樣展現出了非凡的潛力。與市面上廣泛使用的強化學習起步模型相比,如DeepSeek-R1-Distill-7B和Qwen2.5-32B,MiMo-7B在性能上顯著領先。這一成就的取得,得益于MiMo在預訓練和后訓練階段所采取的一系列創新策略。
在預訓練階段,MiMo深入挖掘富含推理內容的語料庫,并合成了約2000億個推理數據tokens。通過三階段逐步提升訓練難度的策略,MiMo的總訓練量達到了驚人的25萬億個tokens。這一階段的努力,為MiMo后續的卓越表現奠定了堅實的基礎。
進入后訓練階段,MiMo則更加注重強化學習算法和框架的高效穩定性。為了緩解困難算法問題中的獎勵稀疏問題,MiMo提出了“測試難度驅動獎勵”策略。同時,引入“簡單數據重采樣”策略以穩定RL訓練過程。MiMo還創新性地設計了“無縫部署”系統,使得RL訓練和驗證過程分別加速了2.29倍和1.96倍。
目前,“Xiaomi MiMo”全系列模型已正式在HuggingFace平臺上開源。用戶只需訪問該平臺,即可輕松獲取并嘗試這一前沿的推理模型。小米的這一舉措,無疑將為全球AI開發者提供更加豐富的資源和選擇,共同推動人工智能技術的不斷發展和創新。