人工智能技術的迅猛進步正引領著人機交互的新潮流,其中語音交互已成為不可忽視的關鍵一環。法國新興科技公司Mistral近期向公眾推出了其首個開源音頻模型Voxtral,此舉旨在挑戰大型科技企業的封閉系統,為開發者開辟一條既靈活又經濟的道路。
Mistral公司自豪地宣稱,Voxtral是首個能夠在現實應用場景中提供“真正實用語音智能”的開源模型。這意味著開發者無需再為選擇低成本但功能有限的開源系統,或是高效但封閉的專有方案而糾結。Voxtral以顯著低于市場價格一半的優勢,為企業帶來了更具吸引力的選項。
據Mistral介紹,Voxtral具備強大的音頻處理能力,能夠輕松轉錄長達30分鐘的音頻內容。依托Mistral Small3.1大型語言模型,用戶甚至能理解長達40分鐘的音頻。用戶不僅可以針對音頻內容提問,還能生成摘要,甚至將語音指令實時轉化為操作,如調用API或執行特定功能。Voxtral支持多語言,包括英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語和意大利語等。
Mistral提供了兩種版本的“語音理解模型”。Voxtral Small擁有240億個參數,專為生產級部署設計,與ElevenLabs Scribe、GPT-4o-mini和Gemini2.5Flash等模型競爭。而Voxtral Mini則擁有30億個參數,更適合本地和邊緣部署。還有一個專為轉錄場景優化的Voxtral Mini Transcribe版本,僅含3億參數,性能超越OpenAI的Whisper,但價格不到其一半。
用戶可以通過Hugging Face平臺免費獲取Voxtral的API,或在Mistral的聊天機器人Le Chat中進行體驗。據公司透露,API的集成費用從每分鐘0.001美元起。此次發布正值Mistral一個月前推出推理模型Magistral之際,這些模型通過分步解決問題的方式提升了可靠性。
作為歐洲人工智能領域的佼佼者,Mistral一直致力于推動開源AI模型的發展。最近有消息稱,Mistral正與投資者協商,計劃籌集高達10億美元的資金,阿布扎比的MGX基金也在其中。