7 月 16 日消息,Mistral AI 當(dāng)?shù)貢r間昨日公布了其 Voxtral 語音理解模型。該系列模型以開源形式推出,可以更低價格提供領(lǐng)先的低錯誤率表現(xiàn),支持真實世界的語音智能生產(chǎn)應(yīng)用。
Voxtral 系列模型由 Mistral Small 3.1 派生而來,包括面向生產(chǎn)應(yīng)用的 24B 版本 Voxtral Small 和適用于本地 / 邊緣部署的 3B 版本 Voxtral Mini,此外還有僅具備語音轉(zhuǎn)文字功能的 Voxtral Mini Transcribe。
該模型支持 32K Token 的上下文長度,可處理 30 分鐘音頻轉(zhuǎn)錄或 40 分鐘音頻理解,內(nèi)置生成相關(guān)問題、結(jié)構(gòu)化摘要的能力,支持英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等印歐諸語言。
Mistral AI 宣稱 Voxtral Mini Transcribe 在成本敏感用例中性能優(yōu)于 OpenAI Whisper,而價格不到后者的一半;而在高級用例方面,Voxtral Small 的性能與本領(lǐng)域頂尖模型 ElevenLabs Scribe 接近,價格也不到一半。