小米科技近期推出的MiMo-VL多模態人工智能模型,在多個技術領域內展現出了非凡的能力,成功接棒了先前的MiMo-7B模型。該模型在圖像、視頻以及語言理解等多模態任務上的表現,顯著超越了同級別的標桿模型Qwen2.5-VL-7B。尤為在GUI Grounding這一特定任務上,MiMo-VL的表現甚至能夠與專業模型相抗衡,預示著它在迎接智能體(Agent)時代方面已做好了充分準備。
在涉及多模態推理的挑戰中,MiMo-VL-7B模型的表現尤為亮眼。盡管其參數規模僅為70億,卻在奧林匹克競賽基準測試(OlympiadBench)以及多個數學競賽(如MathVision和MathVerse)中,大幅領先參數規模達到其十倍的阿里模型Qwen-2.5-VL-72B和QVQ-72B-Preview。同時,它還超越了非開源的GPT-4o模型。在小米內部的大模型競技場真實用戶體驗評估中,MiMo-VL-7B同樣超越了GPT-4o,成為了開源模型中的領先者。
在實際應用場景中,MiMo-VL-7B展現出了卓越的復雜圖像推理和問答能力。在涉及多達十幾步的GUI操作中,該模型也表現出了不俗的潛力。例如,它能夠幫助用戶將小米SU7商品添加到心愿列表中,這一功能在實際應用中極具價值。MiMo-VL-7B之所以擁有如此全面的視覺感知能力,主要得益于其高質量的預訓練數據以及創新的混合在線強化學習算法(MORL)。
為了構建這一多模態模型,小米收集了涵蓋圖像-文本對、視頻-文本對以及GUI操作序列等多種數據類型的高質量預訓練數據,總量達到了2.4萬億個tokens。這些數據經過了嚴格的清洗和合成處理。在預訓練過程中,小米還通過分階段調整不同類型數據的比例,進一步強化了模型的長程多模態推理能力。混合在線強化學習算法融合了文本推理、多模態感知與推理以及人類反饋強化學習(RLHF)等多種反饋信號,并通過在線強化學習算法穩定加速訓練過程,從而全方位提升了模型的推理、感知性能和用戶體驗。
更多關于MiMo-VL模型的信息,可以訪問相關鏈接:https://huggingface.co/XiaomiMiMo。