聞樂 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
開源大模型正在進(jìn)入中國(guó)時(shí)間。
Kimi K2風(fēng)頭正盛,然而不到一周,Qwen3就迎來(lái)最新升級(jí),235B總參數(shù)量?jī)H占Kimi K2 1T規(guī)模的四分之一。
基準(zhǔn)測(cè)試性能上卻超越了Kimi K2。
Qwen官方還宣布不再使用混合思維模式,而是分別訓(xùn)練Instruct和Thinking模型。
所以,此次發(fā)布的新模型僅支持非思考模式,現(xiàn)在網(wǎng)頁(yè)版已經(jīng)可以上線使用了,但通義APP還未見更新。
Qwen官方還透露:這次只是一個(gè)小更新!大招很快就來(lái)了!
但總歸就是,再見Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。
By the way,這個(gè)名字怎么取得越來(lái)越復(fù)雜了。
先來(lái)看看這次的“小更新”都有哪些~
增強(qiáng)了對(duì)256K長(zhǎng)上下文的理解能力
新模型是一款因果語(yǔ)言模型,采用MoE架構(gòu),總參數(shù)量達(dá)235B,其中非嵌入?yún)?shù)為234B,推理時(shí)激活參數(shù)為22B
在官方介紹中顯示,模型共包含94層,采用分組查詢注意力(GQA)機(jī)制,配備64個(gè)查詢頭和4個(gè)鍵值頭,并設(shè)置128個(gè)專家,每次推理時(shí)激活8個(gè)專家。
該模型原生支持262144的上下文長(zhǎng)度。
這次改進(jìn)主要有以下幾個(gè)方面
顯著提升了通用能力,包括指令遵循、邏輯推理、文本理解、數(shù)學(xué)、科學(xué)、編碼和工具使用。大幅增加了多語(yǔ)言長(zhǎng)尾知識(shí)的覆蓋范圍。更好地符合用戶在主觀和開放式任務(wù)中的偏好,能夠提供更有幫助的響應(yīng)和更高質(zhì)量的文本生成。增強(qiáng)了對(duì)256K長(zhǎng)上下文的理解能力。
在官方發(fā)布的基準(zhǔn)測(cè)試中可以看到,相較于上一版本,新模型在AIME25上準(zhǔn)確率從24.7%上升到70.3%,表現(xiàn)出良好的數(shù)學(xué)推理能力。
而且對(duì)比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略勝一籌。
為了提高使用體驗(yàn),官方還推薦了最佳設(shè)置:
Qwen3新版本深夜發(fā)布就立刻收獲了一眾好評(píng):Qwen在中等規(guī)模的語(yǔ)言模型中已經(jīng)領(lǐng)先。
也有網(wǎng)友感慨Qwen在開啟新的架構(gòu)范式:
One More Thing
有趣的是,就在Qwen3新模型發(fā)布的前兩天,NVIDIA也宣稱發(fā)布了新的SOTA開源模型OpenReasoning-Nemotron
該模型提供四個(gè)規(guī)模:1.5B、7B、14B和32B,并且可以實(shí)現(xiàn)100%本地運(yùn)行。
但實(shí)際上,這只是基于Qwen-2.5在Deepseek R1數(shù)據(jù)上微調(diào)的模型。
而現(xiàn)在Qwen3已經(jīng)更新,大招已經(jīng)被預(yù)告。
隨著Llama轉(zhuǎn)向閉源的消息傳出,OpenAI遲遲不見Open,開源基礎(chǔ)大模型的競(jìng)爭(zhēng),現(xiàn)在正在進(jìn)入中國(guó)時(shí)間。
DeepSeek丟了王座,Kimi K2補(bǔ)上,Kimi K2坐穩(wěn)沒幾天,Qwen的挑戰(zhàn)就來(lái)了。
體驗(yàn)鏈接:https://chat.qwen.ai/
[1]https://x.com/Alibaba_Qwen/status/1947344511988076547[2]https://x.com/giffmana/status/1947362393983529005
— 完 —