滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

小米MiMo-VL多模態大模型：領先同尺寸，為Agent時代鋪路！

時間：2025-05-30 10:16:22 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

小米科技近期推出的MiMo-VL多模態人工智能模型，在多個技術領域內展現出了非凡的能力，成功接棒了先前的MiMo-7B模型。該模型在圖像、視頻以及語言理解等多模態任務上的表現，顯著超越了同級別的標桿模型Qwen2.5-VL-7B。尤為在GUI Grounding這一特定任務上，MiMo-VL的表現甚至能夠與專業模型相抗衡，預示著它在迎接智能體（Agent）時代方面已做好了充分準備。

在涉及多模態推理的挑戰中，MiMo-VL-7B模型的表現尤為亮眼。盡管其參數規模僅為70億，卻在奧林匹克競賽基準測試（OlympiadBench）以及多個數學競賽（如MathVision和MathVerse）中，大幅領先參數規模達到其十倍的阿里模型Qwen-2.5-VL-72B和QVQ-72B-Preview。同時，它還超越了非開源的GPT-4o模型。在小米內部的大模型競技場真實用戶體驗評估中，MiMo-VL-7B同樣超越了GPT-4o，成為了開源模型中的領先者。

在實際應用場景中，MiMo-VL-7B展現出了卓越的復雜圖像推理和問答能力。在涉及多達十幾步的GUI操作中，該模型也表現出了不俗的潛力。例如，它能夠幫助用戶將小米SU7商品添加到心愿列表中，這一功能在實際應用中極具價值。MiMo-VL-7B之所以擁有如此全面的視覺感知能力，主要得益于其高質量的預訓練數據以及創新的混合在線強化學習算法（MORL）。

為了構建這一多模態模型，小米收集了涵蓋圖像-文本對、視頻-文本對以及GUI操作序列等多種數據類型的高質量預訓練數據，總量達到了2.4萬億個tokens。這些數據經過了嚴格的清洗和合成處理。在預訓練過程中，小米還通過分階段調整不同類型數據的比例，進一步強化了模型的長程多模態推理能力。混合在線強化學習算法融合了文本推理、多模態感知與推理以及人類反饋強化學習（RLHF）等多種反饋信號，并通過在線強化學習算法穩定加速訓練過程，從而全方位提升了模型的推理、感知性能和用戶體驗。

更多關于MiMo-VL模型的信息，可以訪問相關鏈接：https://huggingface.co/XiaomiMiMo。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

Abridge獲3億美元融資，估值猛增近一倍，領跑AI醫療記錄市場新賽道

06-25

科創板AI指數上揚2.52%，芯原股份等十大權重股助力

金融界6月24日消息，上證指數低開高走，上證科創板人工智能指數(科創AI，950180)上漲2.52%，報1609.7點，成交額161.42億元。數據統計顯示，上證科創板人工智能指數近一個月下跌4.12%…

06-25

投行巨頭高盛全面啟用AI助手，萬名員工已嘗鮮體驗

06-25

QQ瀏覽器AI高考通新上線：智能生成高考志愿報告，助你科學填報！

06-25

中國AI+AR眼鏡Rokid Glasses量產，25萬臺預售訂單開啟商業化新篇章！

06-25

周鴻祎論AI未來：智能再升級，也無法撼動人類的三大核心競爭力

06-25

具身智能浪潮下的領航者：銀河通用如何以“Mobile, Pick and Place”開啟新篇章？

王鶴：我上面也提到過，別家賣便宜的人形機器人，用戶對它的心理預期和我們做場景落地的機器人的心理預期是不一樣的。ChatGPT展現了通用問答的能力，而具身智能模型想要什么活兒都能做，從硬件和傳感器到數據采集還…

06-25

6G智簡無線網絡：重塑移動信息網絡服務新范式，自治技術引領未來

-內涵：從平臺、功能、賦能、管理四個維度設計，以云化算力統一管理為底座，服務化RAN為內核，能力開放與智能編排為中樞，網絡自治技術為保障，實現硬件資源可共享、網絡功能可插拔。- 管理“智簡”：提出網絡自…

06-25

小米明晚7點重磅發布：AI眼鏡，下一代個人智能設備來襲！

【大河財立方消息】6月20日，小米在社交媒體宣布，將于明晚7點發布小米AI眼鏡，小米稱這是“面向下一代的個人智能設備”。責編:李文玉 |審核:李震 | 監審:古箏…

06-25

小米明晚7點發布AI眼鏡，開啟下一代個人智能設備新篇章！

【大河財立方消息】6月20日，小米在社交媒體宣布，將于明晚7點發布小米AI眼鏡，小米稱這是“面向下一代的個人智能設備”。責編:李文玉 |審核:李震 | 監審:古箏…

06-25

訊飛醫療升級星火大模型V2.5國際版，全科及專科診療能力達三甲水平

6月24日，界面新聞記者從訊飛醫療處獲悉，訊飛醫療正式發布星火醫療大模型V2.5國際版，全面升級訊飛曉醫APP并正式發布香港版。星火醫療大模型V2.5國際版支持中文、英文兩文和普通話、粵語及英語三語。據訊…

06-25

AI訓練版權書籍被判合理，Anthropic勝訴卻難逃盜版糾紛

06-25

語音AI客服新星崛起！Synthflow年增15倍獲2000萬融資，劍指行業巨頭

06-25

Wispr Flow融資3000萬，語音AI能否顛覆傳統鍵盤時代？

06-25

谷歌DeepMind新突破：本地AI讓機器人無需聯網也能精準系鞋帶

06-25

點擊查看更多 +

全站最新

綠牌政策或調整，新能源車面臨成本、競爭與心態三大考驗

電車換燃油，續航充電保值率讓我重新審視選擇

豐田章男再談電動車：純電車污染爭議背后，是日本新能源賽道的落后

愛車加油小貼士：油箱剩四分之一時加油最安心

佳途直流充電樁：賦能新能源基建，智能化快充引領行業新風尚

新能源重卡崛起，快遞巨頭紛紛下單，柴油重卡地位面臨挑戰

熱門內容

本欄最新

Abridge獲3億美元融資，估值猛增近一倍，領跑AI醫療記錄市場新賽道

具身智能浪潮下的領航者：銀河通用如何以“Mobile, Pick and Place”開啟新篇章？

6G智簡無線網絡：重塑移動信息網絡服務新范式，自治技術引領未來

小米明晚7點重磅發布：AI眼鏡，下一代個人智能設備來襲！

小米明晚7點發布AI眼鏡，開啟下一代個人智能設備新篇章！

中國自動駕駛賽道擁擠，元戎啟行周光：國內“巨人”林立挑戰與機遇并存

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

小米MiMo-VL多模態大模型：領先同尺寸，為Agent時代鋪路！

日本精品一区二区三区高清久久