滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

Mistral首個開源語音模型來了！全面碾壓Whisper，多項測試超越GPT-4o mini

時間：2025-07-16 23:32:06 來源：智東西編輯：快訊團隊 IP：北京 發表評論無障礙通道

智東西作者王涵編輯漠影

智東西7月16日消息，今日，谷歌和meta前研究人員創立的AI初創公司Mistral AI，最新發布了首個開源語音模型：Voxtral語音理解模型系列！

該模型包含24B和3B兩個參數規模的版本，均基于Apache 2.0許可證開源，同時提供API服務接口。

Voxtral模型支持32k token的上下文窗口，能夠處理長達30分鐘的音頻轉錄任務或40分鐘的語義理解任務，在各項基準測試指標上全面超越目前主流的開源語音轉錄模型Whisper large-v3。

Voxtral模型繼承了Mistral Small 3.1基座模型的文本理解能力，除了基礎的語音轉文字功能外，還可以直接對音頻內容進行問答交互，生成結構化摘要，并通過語音指令觸發API調用。

在公告中，Mistral還給出了幾個實例展現其語音生成能力，包括：

法國男人說法語：

https://oss.zhidx.com/bc5c551f5e78418ce996300229d3f173/68767b00/uploads/2025/07/68771da55bf0d_68771da5557f5_68771da5557ca_chat-fr.m4a

法國男人說英語：

https://oss.zhidx.com/b9d986efdf1a6a1775f86444f331168e/68767b00/uploads/2025/07/68771db31d1fe_68771db319648_68771db319622_chat-en.m4a

還可以加背景音，例如在喧鬧的大街上對話：

https://oss.zhidx.com/88b1d1a527869423a1ef311b8bf10feb/68767b00/uploads/2025/07/68771dbda9878_68771dbda5a08_68771dbda59e3_street.m4a

就連印地語混雜英語都能生成：

https://oss.zhidx.com/2dccd5f38674f04c90ac76962bbaf34b/68767b00/uploads/2025/07/68771dfe69e68_68771dfe657c3_68771dfe65788_audio-hi.m4a

在成本敏感型應用場景中，Voxtral Mini轉錄版的性能優于OpenAI Whisper，而使用成本僅為后者的50%以下。在高階應用場景中，Voxtral Small在保持與ElevenLabs Scribe相當性能水平的同時，使用成本同樣控制在后者50%以下。

開發者可以在Le Chat上試用，通過Hugging Face平臺獲取模型進行本地部署，也可以使用云端API服務。

針對企業級應用，該模型支持私有化部署方案，可進行特定領域的微調適配，并提供高級上下文處理功能以及專屬集成支持。

未來兩周內Voxtral模型將在網頁和移動端的語音模式中向所有用戶推出。

一、轉錄能力全面碾壓Whisper，3項測試超越GPT-4o mini

在轉錄能力上，Voxtral通過多個英語及多語種基準測試進行驗證，每個任務的評測結果均采用跨語言宏平均詞錯率呈現，即數值越低越好。針對英語任務，還分別統計了短音頻（＜30秒）和長音頻（＞30秒）的平均表現。

結果顯示，Voxtral在各項指標上全面超越當前領先的開源語音轉錄模型Whisper large-v3。在英語短音頻，以及覆蓋多種語言和方言的大規模語音數據庫Mozilla Common Voice基準上，Voxtral Small超越Gemini 2.5 Flash與GPT-4o mini Transcribe，在英語長音頻測試上也超越了Scribe和GPT-4o mini Transcribe。

在多語言基準測試FLEURS的評估中，Voxtral Small模型在所有任務上都超越了Whisper large-V3，并在法語和德語中占據榜單首位。

二、語音翻譯成績占據榜首，語音理解能力追平GPT-4o-mini、Gemini 2.5 Flash

為了更好地測試Voxtral Small和Mini版本的語音理解能力，Mistral的研究團隊將三項標準文本理解任務轉換為語音輸入形式，并構建了包含40個長音頻樣本的內部音頻理解基準（AU Benchmark），要求模型完成復雜問答任務。還基于FLEURS-Translation基準測試了Voxtral的語音翻譯性能。

測試結果顯示，Voxtral Small在所有任務中與GPT-4o-mini及Gemini 2.5 Flash表現相當，并在語音翻譯任務FLEURS Translation中，超越GPT-4o-mini及Gemini 2.5 Flash，位列第一。

在文本方面，Voxtral保留了其基座語言模型的文本處理能力，在各項文本測試中與Mistral Small 3.1成績相當，官方稱可直接替代Ministral和Mistral Small 3.1模型使用。

結語：Voxtral表現超越開源項目，但難敵商業模型

Mistral AI發布的Voxtral語音模型系列為開源語音AI領域帶來了新的技術選擇。

從測試結果上看，該模型在轉錄準確率上超越了同為開源的Whisper，但其與商業模型GPT-4o-mini及Gemini 2.5 Flash還是有著一定的差距，Scribe依舊是語音模型中的“老大”。

Mistral AI在公告中還特別提到，未來幾個月，Voxtral模型的音頻處理能力還會持續增強，并且將新增說話人分割、音頻標記（如年齡和情緒）、詞級時間戳、非語音音頻識別等功能。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

MiniMax推出Agent全棧開發功能！一句話聊出演唱會選座系統，可鎖座可支付

07-16

全球最亮、最節能：港科大研發出新一代 QRLED

07-16

吉利銀河全新轎車星耀6申報：長超4.8米，或搭載全新一代雷神超混

07-16

宇樹科技：1 到 3 年內機器人或許可以去流水線上打螺絲

07-16

比亞迪宋 L GT 申報：部分車型動力提升，或標配激光雷達

07-16

全球首款文商旅體專用雙足機器人“镋鈀”發布

07-16

百度阿里B站美股齊飛揚，百度攜手Uber拓展海外無人駕駛市場

07-16

像素蛋糕方糖大模型引領AI創作革命，助力創意快速轉化為生產力

值得一提的是，像素蛋糕8.0版本的創意模塊，以獨家研發的方糖大模型為依托，突破傳統修圖模式，打通AI創作路徑，在現有AI祛路人、AI超清、AI補草地的場景上，推出了證件照換服裝、AI布景、智能道具修復、智能…

07-16

馬斯克xAI推出AI聊天伴侶：個性化數字伴侶服務引發熱議

據媒體報道，此次更新后將上線兩名新角色，一名是哥特風格的二次元女孩形象Ani，另一名則是卡通風格小熊貓“壞魯迪”（Bad Rudy）。今天，我們正式邁出了將數據、模型、計算、分發渠道和人才結合起來的步伐”，…

07-16

AI大模型爭霸賽：Llama、DeepSeek與Qwen誰將稱雄？

性能PKLlama副總裁Ahmad AI-Dahle于今年4月6日在社交媒體平臺X發布了一張測試圖片，并配文“截至今天，Llama4 Maverick提供了一流的性能與成本比，其實驗性聊天版本在LMAren…

07-16

釘釘換帥：陳航接力再出發，AI賽道迎戰飛書挑戰

三個月前，無招（陳航）正式回歸阿里，接任釘釘CEO一職，葉軍則被調回了阿里巴巴集團。今年2月，吳泳銘在阿里2025年財報電話會上點名釘釘：“集團內非常重要的To B資產——釘釘，未來在企業端會有非常多用A…

07-16

AI伴侶模式引熱議：馬斯克xAI公司Grok成“虛擬女友”新潮流？

這一消息不僅迅速在X平臺上掀起熱潮，還引發了關于人工智能、情感連接以及未來人機關系倫理的廣泛討論：AI的未來是成為人類的工具，還是伙伴或“替代品”？此前，類似Replika和Character.AI的AI伴侶…

07-16

AI+智算云強強聯手，驅動多模態大模型加速賦能垂直行業

此次合作，三方將聚焦行業智能云解決方案共建、AI產品研發與生態協同、聯合市場拓展等方向，依托格靈深瞳的AI算法能力、光環新網的高性能算力資源及光環云的智算云網綜合服務能力，共同為金融、教育、安防、應急、低空…

07-16

“飛天”健身器上天！青島英派斯為航天員健康護航

07-16

13億會員費買了個寂寞？山姆閃電下架好麗友，盼盼、洽洽悄然換標，會員制靈魂何在？

07-16

點擊查看更多 +

全站最新

像素蛋糕方糖大模型引領AI創作革命，助力創意快速轉化為生產力

馬斯克xAI推出AI聊天伴侶：個性化數字伴侶服務引發熱議

AI大模型爭霸賽：Llama、DeepSeek與Qwen誰將稱雄？

釘釘換帥：陳航接力再出發，AI賽道迎戰飛書挑戰

AI伴侶模式引熱議：馬斯克xAI公司Grok成“虛擬女友”新潮流？

AI+智算云強強聯手，驅動多模態大模型加速賦能垂直行業

熱門內容

本欄最新

像素蛋糕方糖大模型引領AI創作革命，助力創意快速轉化為生產力

馬斯克xAI推出AI聊天伴侶：個性化數字伴侶服務引發熱議

AI大模型爭霸賽：Llama、DeepSeek與Qwen誰將稱雄？

釘釘換帥：陳航接力再出發，AI賽道迎戰飛書挑戰

AI伴侶模式引熱議：馬斯克xAI公司Grok成“虛擬女友”新潮流？

AI+智算云強強聯手，驅動多模態大模型加速賦能垂直行業

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

Mistral首個開源語音模型來了！全面碾壓Whisper，多項測試超越GPT-4o mini

日本精品一区二区三区高清久久