英偉達(dá)美東時(shí)間2日周二披露了與法國(guó)人工智能(AI)初創(chuàng)公司Mistral AI合作取得的重大突破。通過采用英偉達(dá)的最新芯片技術(shù),Mistral AI開源模型家族的新成員在性能、效率和部署靈活性上實(shí)現(xiàn)跨越式提升。
這一合作成果的核心是,Mistral Large 3這一大型模型在英偉達(dá)GB200 NVL72系統(tǒng)上實(shí)現(xiàn)了相比前代H200芯片10倍的性能提升。這種性能飛躍轉(zhuǎn)化為更好的用戶體驗(yàn)、更低的單次響應(yīng)成本以及更高的能源效率。該模型在每兆瓦(MW)能耗下可實(shí)現(xiàn)每秒超過500萬個(gè)token的處理速度。
除大型模型外,名為Ministral 3的小型模型系列也針對(duì)英偉達(dá)邊緣平臺(tái)進(jìn)行了優(yōu)化,可在RTX PC、筆記本電腦和Jetson設(shè)備上運(yùn)行。這使得企業(yè)能夠在云端到邊緣的任何場(chǎng)景部署人工智能應(yīng)用,無需依賴持續(xù)的網(wǎng)絡(luò)連接。
Mistral AI周二發(fā)布的新模型家族包括一個(gè)大型前沿模型和九個(gè)小模型,均可通過Hugging Face等開源平臺(tái)和主流云服務(wù)商獲取。業(yè)內(nèi)人士認(rèn)為,這一系列發(fā)布標(biāo)志著開源AI進(jìn)入"分布式智能"新階段,彌合了研究突破與實(shí)際應(yīng)用之間的差距。
GB200系統(tǒng)助力大模型性能突破
Mistral Large 3是一個(gè)混合專家模型(MoE),擁有675億總參數(shù)和410億活躍參數(shù),以及25.6萬token的上下文窗口。該架構(gòu)的特點(diǎn)是僅激活對(duì)每個(gè)token最具影響力的模型部分,而非啟動(dòng)所有神經(jīng)元,從而在保持精度的同時(shí)實(shí)現(xiàn)高效擴(kuò)展。
英偉達(dá)稱,通過利用一系列專為大型先進(jìn)MoE量身定制的優(yōu)化技術(shù),Mistral Large 3在英偉達(dá)GB200 NVL72上實(shí)現(xiàn)了同類最佳性能。
英偉達(dá)通過三項(xiàng)關(guān)鍵技術(shù)優(yōu)化實(shí)現(xiàn)了性能突破。首先是Wide Expert Parallelism技術(shù),通過優(yōu)化的MoE內(nèi)核、專家分配和負(fù)載均衡充分利用NVlink的連貫內(nèi)存域。其次是NVFP4低精度推理技術(shù),在保持精度的同時(shí)降低計(jì)算和內(nèi)存成本。第三是Dynamo分布式推理框架,通過分離預(yù)填充和解碼階段提升長(zhǎng)文本處理性能。
該模型已兼容TensorRT-LLM、SGLang和vLLM等主流推理框架。開發(fā)者可以通過這些開源工具在不同規(guī)模的英偉達(dá)GPU上靈活部署模型,選擇適合自身需求的精度格式和硬件配置。
小模型瞄準(zhǔn)邊緣設(shè)備部署
Ministral 3系列包含九個(gè)密集型高性能模型,涵蓋30億、80億和140億三種參數(shù)規(guī)模,每種規(guī)模又提供基礎(chǔ)版、指令版和推理版三個(gè)變體。所有變體均支持視覺功能,處理12.8萬至25.6萬token的上下文窗口,并支持多語言。
這些小型模型在英偉達(dá)RTX 5090 GPU上可實(shí)現(xiàn)每秒最高385個(gè)token的推理速度。在Jetson Thor設(shè)備上,vLLM容器在單并發(fā)下可達(dá)每秒52個(gè)token,在8個(gè)并發(fā)下可擴(kuò)展至每秒273個(gè)token。
英偉達(dá)與Ollama和llama.cpp合作優(yōu)化了這些模型的邊緣性能。開發(fā)者可以在GeForce RTX AI PC、DGX Spark和Jetson設(shè)備等英偉達(dá)邊緣平臺(tái)上運(yùn)行這些模型,實(shí)現(xiàn)更快的迭代速度、更低的延遲和更強(qiáng)的數(shù)據(jù)隱私保護(hù)。
由于單個(gè)GPU即可運(yùn)行,Ministral 3可部署在機(jī)器人、自動(dòng)駕駛無人機(jī)、汽車、手機(jī)和筆記本電腦等設(shè)備上。這種部署靈活性使得人工智能應(yīng)用能夠在網(wǎng)絡(luò)連接受限或無網(wǎng)絡(luò)環(huán)境下運(yùn)行。
Mistral新模型家族商業(yè)化提速
Mistral AI周二發(fā)布的新模型系列是該公司追趕OpenAI、谷歌和DeepSeek等領(lǐng)先AI實(shí)驗(yàn)室的最新舉措。這家成立于2023年的公司在去年9月完成17億歐元融資,其中荷蘭芯片設(shè)備制造商ASML貢獻(xiàn)13億歐元,英偉達(dá)也參與其中,估值達(dá)到117億歐元。
Mistral AI的聯(lián)合創(chuàng)始人兼首席科學(xué)家Guillaume Lample表示,盡管大型閉源模型在初始基準(zhǔn)測(cè)試中表現(xiàn)更好,但經(jīng)過針對(duì)性微調(diào)后,小型模型在企業(yè)特定用例上往往能匹敵甚至超越大型模型。他強(qiáng)調(diào),絕大多數(shù)企業(yè)用例可以通過微調(diào)后的小型模型解決,且成本更低、速度更快。
Mistral AI已開始加速商業(yè)化進(jìn)程。本周一,該公司宣布與匯豐銀行達(dá)成協(xié)議,為這家跨國(guó)銀行提供從金融分析到翻譯等任務(wù)的模型訪問權(quán)限。該公司還與多家企業(yè)簽訂了價(jià)值數(shù)億美元的合同,并在物理人工智能領(lǐng)域展開布局,與新加坡內(nèi)政科技局、德國(guó)國(guó)防科技初創(chuàng)公司Helsing以及汽車制造商Stellantis開展機(jī)器人、無人機(jī)和車載助手項(xiàng)目合作。
Mistral Large 3和Ministral-14B-Instruct現(xiàn)已通過英偉達(dá)API目錄和預(yù)覽API向開發(fā)者開放。企業(yè)開發(fā)者很快還可使用英偉達(dá)NIM微服務(wù)在任何GPU加速基礎(chǔ)設(shè)施上輕松部署這些模型。所有Mistral 3家族模型均可從Hugging Face下載。







