日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

Mistral首個開源語音模型來了!全面碾壓Whisper,多項測試超越GPT-4o mini

   時間:2025-07-16 23:32:06 來源:智東西編輯:快訊團隊 IP:北京 發表評論無障礙通道

智東西作者 王涵編輯 漠影

智東西7月16日消息,今日,谷歌和meta前研究人員創立的AI初創公司Mistral AI,最新發布了首個開源語音模型:Voxtral語音理解模型系列!

該模型包含24B和3B兩個參數規模的版本,均基于Apache 2.0許可證開源,同時提供API服務接口。

Voxtral模型支持32k token的上下文窗口,能夠處理長達30分鐘的音頻轉錄任務或40分鐘的語義理解任務,在各項基準測試指標上全面超越目前主流的開源語音轉錄模型Whisper large-v3。

Voxtral模型繼承了Mistral Small 3.1基座模型的文本理解能力,除了基礎的語音轉文字功能外,還可以直接對音頻內容進行問答交互,生成結構化摘要,并通過語音指令觸發API調用。

在公告中,Mistral還給出了幾個實例展現其語音生成能力,包括:

法國男人說法語:

https://oss.zhidx.com/bc5c551f5e78418ce996300229d3f173/68767b00/uploads/2025/07/68771da55bf0d_68771da5557f5_68771da5557ca_chat-fr.m4a

法國男人說英語:

https://oss.zhidx.com/b9d986efdf1a6a1775f86444f331168e/68767b00/uploads/2025/07/68771db31d1fe_68771db319648_68771db319622_chat-en.m4a

還可以加背景音,例如在喧鬧的大街上對話:

https://oss.zhidx.com/88b1d1a527869423a1ef311b8bf10feb/68767b00/uploads/2025/07/68771dbda9878_68771dbda5a08_68771dbda59e3_street.m4a

就連印地語混雜英語都能生成:

https://oss.zhidx.com/2dccd5f38674f04c90ac76962bbaf34b/68767b00/uploads/2025/07/68771dfe69e68_68771dfe657c3_68771dfe65788_audio-hi.m4a

在成本敏感型應用場景中,Voxtral Mini轉錄版的性能優于OpenAI Whisper,而使用成本僅為后者的50%以下。在高階應用場景中,Voxtral Small在保持與ElevenLabs Scribe相當性能水平的同時,使用成本同樣控制在后者50%以下。

開發者可以在Le Chat上試用,通過Hugging Face平臺獲取模型進行本地部署,也可以使用云端API服務。

針對企業級應用,該模型支持私有化部署方案,可進行特定領域的微調適配,并提供高級上下文處理功能以及專屬集成支持。

未來兩周內Voxtral模型將在網頁和移動端的語音模式中向所有用戶推出。

一、轉錄能力全面碾壓Whisper,3項測試超越GPT-4o mini

在轉錄能力上,Voxtral通過多個英語及多語種基準測試進行驗證,每個任務的評測結果均采用跨語言宏平均詞錯率呈現,即數值越低越好。針對英語任務,還分別統計了短音頻(<30秒)和長音頻(>30秒)的平均表現。

結果顯示,Voxtral在各項指標上全面超越當前領先的開源語音轉錄模型Whisper large-v3。在英語短音頻,以及覆蓋多種語言和方言的大規模語音數據庫Mozilla Common Voice基準上,Voxtral Small超越Gemini 2.5 Flash與GPT-4o mini Transcribe,在英語長音頻測試上也超越了Scribe和GPT-4o mini Transcribe。

在多語言基準測試FLEURS的評估中,Voxtral Small模型在所有任務上都超越了Whisper large-V3,并在法語和德語中占據榜單首位。

二、語音翻譯成績占據榜首,語音理解能力追平GPT-4o-mini、Gemini 2.5 Flash

為了更好地測試Voxtral Small和Mini版本的語音理解能力,Mistral的研究團隊將三項標準文本理解任務轉換為語音輸入形式,并構建了包含40個長音頻樣本的內部音頻理解基準(AU Benchmark),要求模型完成復雜問答任務。還基于FLEURS-Translation基準測試了Voxtral的語音翻譯性能。

測試結果顯示,Voxtral Small在所有任務中與GPT-4o-mini及Gemini 2.5 Flash表現相當,并在語音翻譯任務FLEURS Translation中,超越GPT-4o-mini及Gemini 2.5 Flash,位列第一。

在文本方面,Voxtral保留了其基座語言模型的文本處理能力,在各項文本測試中與Mistral Small 3.1成績相當,官方稱可直接替代Ministral和Mistral Small 3.1模型使用。

結語:Voxtral表現超越開源項目,但難敵商業模型

Mistral AI發布的Voxtral語音模型系列為開源語音AI領域帶來了新的技術選擇。

從測試結果上看,該模型在轉錄準確率上超越了同為開源的Whisper,但其與商業模型GPT-4o-mini及Gemini 2.5 Flash還是有著一定的差距,Scribe依舊是語音模型中的“老大”。

Mistral AI在公告中還特別提到,未來幾個月,Voxtral模型的音頻處理能力還會持續增強,并且將新增說話人分割、音頻標記(如年齡和情緒)、詞級時間戳、非語音音頻識別等功能。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 达孜县| 古田县| 兰州市| 堆龙德庆县| 定日县| 克拉玛依市| 德州市| 峨眉山市| 浑源县| 富顺县| 兴义市| 临泽县| 邳州市| 苏尼特右旗| 乌拉特前旗| 新蔡县| 于都县| 甘南县| 岑溪市| 苏尼特左旗| 瑞安市| 屯留县| 泗水县| 大足县| 珠海市| 泰安市| 望城县| 康定县| 济南市| 黑龙江省| 彝良县| 青海省| 白玉县| 和林格尔县| 武夷山市| 砚山县| 洛浦县| 镇远县| 抚顺县| 永丰县| 禹城市|