機(jī)器之心報(bào)道
機(jī)器之心編輯部
Mistral AI只是想做歐洲版的OpenAI?
最近幾個(gè)月,由谷歌和 meta 前研究人員建立的歐洲的 AI 初創(chuàng)公司 Mistral AI 有些躁動(dòng)不安。
他們接連發(fā)布了好些個(gè)開(kāi)源模型,覆蓋不同的領(lǐng)域,包含號(hào)稱(chēng)「世界上最優(yōu)秀」的 OCR 模型、「對(duì)標(biāo) Claude」的多模態(tài)模型、首個(gè)推理大模型 Magistral 以及兩天前發(fā)布的「全球最佳」的開(kāi)源語(yǔ)音模型 Voxtral。
這樣似乎也很難讓這位歐洲 AI「新貴」感到滿(mǎn)意,他們還想在應(yīng)用層面好好地卷一卷 OpenAI。
他們將 Le Chat 再一次升級(jí),引入了一些強(qiáng)大的新功能,使其更強(qiáng)大、更直觀,也更有趣,在功能上幾乎全方位對(duì)標(biāo)ChatGPT。
Le Chat 的新功能
深度研究模式:即使是復(fù)雜主題,也能快速生成結(jié)構(gòu)化的研究報(bào)告。語(yǔ)音模式:使用我們的新 Voxtral 模型與 Le Chat 對(duì)話,而不是用鍵盤(pán)輸入。原生多語(yǔ)言推理:借助我們的推理模型 ——Magistral,獲取深思熟慮的答案。項(xiàng)目管理:將您的對(duì)話組織到內(nèi)容豐富的文件夾中。高級(jí)圖像編輯,在 Le Chat 中直接進(jìn)行,與 Black Forest Labs 合作。
Le Chat 新功能宣傳片
研究模式可將 Le Chat 轉(zhuǎn)變?yōu)橐粋€(gè)協(xié)調(diào)的研究助手,能夠規(guī)劃、明確需求、搜索和綜合信息。提出一個(gè)有深度的問(wèn)題,它會(huì)將其分解,收集可靠的資料,并構(gòu)建一個(gè)結(jié)構(gòu)清晰、有參考文獻(xiàn)支持且易于理解的報(bào)告。
它由工具增強(qiáng)型深度研究 Agent 驅(qū)動(dòng),但設(shè)計(jì)得簡(jiǎn)單、透明且真正有幫助,仿佛與一個(gè)組織良好的研究伙伴合作。
Mistral AI 也在官網(wǎng)展示了一些用例。深度研究模式能夠追蹤市場(chǎng)趨勢(shì)、撰寫(xiě)商業(yè)策略書(shū)、做個(gè)人計(jì)劃以及最重要的、進(jìn)行學(xué)術(shù)研究。
語(yǔ)音模式可以像和人聊天一樣與 Le Chat 交流 —— 無(wú)需打字。你可以在散步時(shí)頭腦風(fēng)暴、在處理雜事時(shí)快速獲取答案或轉(zhuǎn)錄會(huì)議內(nèi)容。它由 Mistral 新的語(yǔ)音輸入模型 Voxtral 驅(qū)動(dòng),專(zhuān)為自然、低延遲的語(yǔ)音識(shí)別而構(gòu)建,能跟上用戶(hù)的工作速度。
但目前 Le Chat 僅支持語(yǔ)音轉(zhuǎn)文字的輸入,該功能并非實(shí)時(shí)語(yǔ)音對(duì)話
所以,跟電子助手聊天的功能依舊沒(méi)有實(shí)現(xiàn),更別提 Grok 4 Ani 那樣的數(shù)字伴侶了。
圖像編輯功能方面,可以通過(guò)「移除物體」或「將我放置在另一個(gè)城市」等簡(jiǎn)單提示來(lái)創(chuàng)建并編輯圖像。模型支持轉(zhuǎn)換場(chǎng)景,同時(shí)保留角色和細(xì)節(jié)。這有助于保證編輯的一致性:可以保持人物、物體和設(shè)計(jì)元素在圖像之間的不會(huì)變得認(rèn)不出來(lái)。
圖像編輯這塊,Le Chat 似乎做得出人意料的好。網(wǎng)友在論壇分享了使用體驗(yàn),認(rèn)為 Le Chat 做得比 OpenAI 更好。
「OpenAI 的模型在編輯時(shí)會(huì)改變整個(gè)圖像,導(dǎo)致無(wú)關(guān)區(qū)域出現(xiàn)細(xì)節(jié)錯(cuò)誤。(Le Chat)似乎完美地保留了與查詢(xún)無(wú)關(guān)的圖像部分,并選擇性地應(yīng)用編輯,這令人印象深刻!」
網(wǎng)友上傳了一張家庭辦公室的照片,并提出了以下提示:「修復(fù)照片底部略微撕裂的灰色面板,讓它們看起來(lái)像全新的」,編輯結(jié)果非常令人滿(mǎn)意。
上圖為原始圖像,下圖為編輯后圖像
對(duì)于這些新功能,我們的讀者想必已經(jīng)非常熟悉。在這一次的大更新之后,Le Chat 在功能上基本實(shí)現(xiàn)了與 ChatGPT 等行業(yè)領(lǐng)先的產(chǎn)品保持一致。
最近 Mistral AI 的動(dòng)作確實(shí)讓人看到了歐洲在大模型領(lǐng)域保持追趕的勢(shì)頭。對(duì)此,網(wǎng)友們表達(dá)了對(duì) Mistral 快速追趕的興奮。
值得分享的是,Le Chat 在法語(yǔ)中意為「貓」,而 Mistral AI 的主頁(yè)底部就有一只像素貓咪,Mistral AI 圖標(biāo)也形似一只貓貓頭,非常可愛(ài)。
Mistral AI 的語(yǔ)音識(shí)別模型
7 月 15 日,Mistral AI 發(fā)布了全新的語(yǔ)音識(shí)別模型 Voxtral,號(hào)稱(chēng)是「全球最佳(且開(kāi)源)」的語(yǔ)音識(shí)別模型。
Voxtral 在語(yǔ)音轉(zhuǎn)寫(xiě)方面全面超越了 Whisper large-v3,當(dāng)前領(lǐng)先的開(kāi)放源代碼語(yǔ)音轉(zhuǎn)寫(xiě)模型。它在所有任務(wù)中都擊敗了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,并在英語(yǔ)短形式和 Mozilla Common Voice 上取得了最先進(jìn)的結(jié)果,超越了 ElevenLabs Scribe,展示了其強(qiáng)大的多語(yǔ)言能力。
Voxtral 3B 和 Voxtral 24B 模型不僅僅具備語(yǔ)音轉(zhuǎn)錄功能,還具備以下能力:
超長(zhǎng)上下文理解:支持最長(zhǎng) 32k token 的上下文,轉(zhuǎn)錄最長(zhǎng)達(dá) 30 分鐘音頻,理解可達(dá) 40 分鐘;內(nèi)置問(wèn)答與摘要功能:無(wú)需將語(yǔ)音識(shí)別與語(yǔ)言模型串聯(lián),即可直接針對(duì)音頻內(nèi)容提問(wèn)或生成結(jié)構(gòu)化摘要;原生多語(yǔ)種支持:具備自動(dòng)語(yǔ)言識(shí)別功能,在全球主流語(yǔ)言(如英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、印地語(yǔ)、德語(yǔ)、荷蘭語(yǔ)、意大利語(yǔ)等)中均達(dá)到業(yè)內(nèi)領(lǐng)先表現(xiàn),助力團(tuán)隊(duì)以單一系統(tǒng)服務(wù)全球用戶(hù);從語(yǔ)音直接觸發(fā)函數(shù)調(diào)用:可根據(jù)用戶(hù)的語(yǔ)音意圖直接觸發(fā)后端函數(shù)、工作流或 API 調(diào)用,無(wú)需中間解析步驟,實(shí)現(xiàn)語(yǔ)音到系統(tǒng)指令的無(wú)縫轉(zhuǎn)換;強(qiáng)大的文本理解能力:延續(xù)其語(yǔ)言模型基礎(chǔ)(Mistral Small 3.1)在文本處理方面的高性能表現(xiàn)。