小米大模型團(tuán)隊(duì)近日通過(guò)官方渠道“Xiaomi MiMo”公眾號(hào)震撼發(fā)布,其首個(gè)專(zhuān)為推理能力打造的大模型——MiMo正式開(kāi)源。這一舉措標(biāo)志著小米在人工智能領(lǐng)域的又一重大突破,由全新組建的小米大模型Core團(tuán)隊(duì)傾力打造。
據(jù)悉,MiMo在數(shù)學(xué)推理(參考AIME 24-25評(píng)測(cè))及代碼競(jìng)賽(LiveCodeBench v5評(píng)測(cè))兩大公開(kāi)測(cè)評(píng)集中,僅憑7B的參數(shù)規(guī)模,便超越了業(yè)界知名的OpenAI閉源推理模型o1-mini,以及規(guī)模更為龐大的阿里開(kāi)源推理模型QwQ-32B-Preview,展現(xiàn)出卓越的推理性能。
小米官方詳細(xì)闡述了MiMo推理能力得以大幅提升的背后邏輯,這得益于預(yù)訓(xùn)練和后訓(xùn)練階段中數(shù)據(jù)和算法等多方面的創(chuàng)新融合。在預(yù)訓(xùn)練階段,團(tuán)隊(duì)著重讓模型接觸并學(xué)習(xí)多樣化的推理模式;數(shù)據(jù)方面,深入挖掘富含推理元素的語(yǔ)料,并合成約200B tokens的推理數(shù)據(jù)集,為模型提供了豐富的訓(xùn)練素材。訓(xùn)練過(guò)程則分為三個(gè)階段,逐步提升難度,累計(jì)訓(xùn)練量達(dá)到25T tokens。
進(jìn)入后訓(xùn)練階段,小米團(tuán)隊(duì)采用了高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架。算法層面,創(chuàng)新性地提出了Test Difficulty Driven Reward機(jī)制,有效緩解了困難算法問(wèn)題中的獎(jiǎng)勵(lì)稀疏難題,并引入Easy Data Re-Sampling策略,確保RL訓(xùn)練的穩(wěn)定性。框架層面,設(shè)計(jì)了一套Seamless Rollout系統(tǒng),使得RL訓(xùn)練速度提升了2.29倍,驗(yàn)證速度也加快了1.96倍。
小米大模型MiMo的開(kāi)源,無(wú)疑為人工智能社區(qū)注入了一股新的活力。對(duì)于開(kāi)發(fā)者而言,這意味著他們將有機(jī)會(huì)深入了解并應(yīng)用這一先進(jìn)的推理模型,推動(dòng)相關(guān)領(lǐng)域的技術(shù)進(jìn)步和創(chuàng)新。同時(shí),MiMo的成功也展示了小米在人工智能領(lǐng)域的深厚積累和持續(xù)創(chuàng)新能力。
對(duì)于關(guān)注人工智能發(fā)展的廣大用戶(hù)而言,小米MiMo的開(kāi)源無(wú)疑是一個(gè)值得期待的消息。它預(yù)示著未來(lái)將有更多基于這一模型的創(chuàng)新應(yīng)用涌現(xiàn),為人們的生活和工作帶來(lái)更多便利和可能性。
感興趣的開(kāi)發(fā)者可以通過(guò)以下鏈接獲取小米MiMo的開(kāi)源代碼及技術(shù)報(bào)告:
Hugging Face平臺(tái):(鏈接已移除)
技術(shù)報(bào)告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf