日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

小米MiMo-VL多模態大模型:領先同尺寸,為Agent時代鋪路!

   時間:2025-05-30 10:16:22 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

小米科技近期推出的MiMo-VL多模態人工智能模型,在多個技術領域內展現出了非凡的能力,成功接棒了先前的MiMo-7B模型。該模型在圖像、視頻以及語言理解等多模態任務上的表現,顯著超越了同級別的標桿模型Qwen2.5-VL-7B。尤為在GUI Grounding這一特定任務上,MiMo-VL的表現甚至能夠與專業模型相抗衡,預示著它在迎接智能體(Agent)時代方面已做好了充分準備。

在涉及多模態推理的挑戰中,MiMo-VL-7B模型的表現尤為亮眼。盡管其參數規模僅為70億,卻在奧林匹克競賽基準測試(OlympiadBench)以及多個數學競賽(如MathVision和MathVerse)中,大幅領先參數規模達到其十倍的阿里模型Qwen-2.5-VL-72B和QVQ-72B-Preview。同時,它還超越了非開源的GPT-4o模型。在小米內部的大模型競技場真實用戶體驗評估中,MiMo-VL-7B同樣超越了GPT-4o,成為了開源模型中的領先者。

在實際應用場景中,MiMo-VL-7B展現出了卓越的復雜圖像推理和問答能力。在涉及多達十幾步的GUI操作中,該模型也表現出了不俗的潛力。例如,它能夠幫助用戶將小米SU7商品添加到心愿列表中,這一功能在實際應用中極具價值。MiMo-VL-7B之所以擁有如此全面的視覺感知能力,主要得益于其高質量的預訓練數據以及創新的混合在線強化學習算法(MORL)。

為了構建這一多模態模型,小米收集了涵蓋圖像-文本對、視頻-文本對以及GUI操作序列等多種數據類型的高質量預訓練數據,總量達到了2.4萬億個tokens。這些數據經過了嚴格的清洗和合成處理。在預訓練過程中,小米還通過分階段調整不同類型數據的比例,進一步強化了模型的長程多模態推理能力。混合在線強化學習算法融合了文本推理、多模態感知與推理以及人類反饋強化學習(RLHF)等多種反饋信號,并通過在線強化學習算法穩定加速訓練過程,從而全方位提升了模型的推理、感知性能和用戶體驗。

更多關于MiMo-VL模型的信息,可以訪問相關鏈接:https://huggingface.co/XiaomiMiMo。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 沭阳县| 肇源县| 元氏县| 晋中市| 乌海市| 承德县| 商洛市| 寻乌县| 汶川县| 枣庄市| 江安县| 东丽区| 瑞金市| 金门县| 房山区| 黄大仙区| 新乐市| 沅陵县| 岑溪市| 闽清县| 工布江达县| 新田县| 瑞安市| 舟山市| 潢川县| 中山市| 论坛| 丹江口市| 罗平县| 玉龙| 阿拉尔市| 亳州市| 伊金霍洛旗| 措勤县| 贵州省| 巴林右旗| 吉安市| 梁河县| 临西县| 东安县| 南安市|