人工智能領(lǐng)域迎來重要進(jìn)展,DeepSeek近日正式推出兩款新模型——DeepSeek-V3.2與DeepSeek-V3.2-Speciale。這兩款模型在推理能力方面展現(xiàn)出全球領(lǐng)先水平,引發(fā)行業(yè)廣泛關(guān)注。其中,V3.2定位為平衡推理性能與輸出長度的通用型模型,適用于問答場景和智能體任務(wù)等日常應(yīng)用場景。該模型此前已發(fā)布實(shí)驗(yàn)版本,此次正式版在公開測試中達(dá)到GPT-5的基準(zhǔn)水平,僅在部分指標(biāo)上略遜于谷歌Gemini3 Pro。
作為技術(shù)升級的核心產(chǎn)品,V3.2-Speciale被定位為"開源模型推理能力的極限探索者"。該模型通過融合長思考增強(qiáng)技術(shù)與DeepSeek-Math-V2的數(shù)學(xué)證明能力,構(gòu)建起包含指令跟隨、邏輯驗(yàn)證和數(shù)學(xué)推理的復(fù)合能力體系。在數(shù)學(xué)競賽測試中,Speciale在美國數(shù)學(xué)邀請賽、哈佛MIT數(shù)學(xué)競賽等權(quán)威賽事中均超越Gemini3 Pro,國際奧數(shù)競賽成績更達(dá)到人類選手前1%水平。不過在編程和理工科博士生測試中,其表現(xiàn)仍與谷歌模型存在差距。
技術(shù)評測數(shù)據(jù)顯示,Speciale在ICPC全球總決賽和IOI競賽中分別取得人類選手第二名和第十名的成績,展現(xiàn)出接近頂尖人類選手的復(fù)雜問題解決能力。但DeepSeek團(tuán)隊(duì)坦言,與閉源專有模型相比,V3.2系列仍存在三方面局限:世界知識廣度不足、Token使用效率偏低,以及復(fù)雜任務(wù)處理能力有待提升。針對這些短板,研發(fā)團(tuán)隊(duì)計(jì)劃通過擴(kuò)大預(yù)訓(xùn)練計(jì)算量和優(yōu)化推理鏈密度進(jìn)行改進(jìn)。
當(dāng)前開源與閉源模型的發(fā)展差距成為行業(yè)焦點(diǎn)。技術(shù)報(bào)告指出,自推理模型技術(shù)突破以來,雖然開源社區(qū)持續(xù)進(jìn)步,但谷歌、OpenAI等閉源模型的性能增速明顯更快。這種分化主要體現(xiàn)在三個(gè)層面:標(biāo)準(zhǔn)注意力機(jī)制對長序列處理的效率制約、后訓(xùn)練階段計(jì)算資源投入不足,以及智能體泛化能力與指令遵循能力的差距。這些因素導(dǎo)致專有系統(tǒng)在復(fù)雜任務(wù)中的優(yōu)勢持續(xù)擴(kuò)大。
為突破技術(shù)瓶頸,DeepSeek在9月實(shí)驗(yàn)版中引入的稀疏注意力機(jī)制(DSA)已通過驗(yàn)證。該機(jī)制通過優(yōu)化計(jì)算復(fù)雜度,在不損失長上下文處理能力的前提下,顯著提升模型效率。正式版兩款模型均采用這項(xiàng)創(chuàng)新技術(shù),使得V3.2在智能體場景中成為兼具性能與成本優(yōu)勢的解決方案。實(shí)際測試表明,其推理性能提升的同時(shí),計(jì)算資源消耗較前代降低37%。
目前DeepSeek-V3.2已完成全平臺更新,用戶可通過網(wǎng)頁端、移動應(yīng)用和API接口使用。增強(qiáng)的Speciale版本則以臨時(shí)API形式開放,供研究機(jī)構(gòu)和開發(fā)者進(jìn)行深度評測。海外技術(shù)社區(qū)對此反應(yīng)熱烈,部分專家認(rèn)為這兩款模型的發(fā)布標(biāo)志著開源模型與專有系統(tǒng)的性能差距進(jìn)入動態(tài)平衡階段。雖然完全消除差距仍需時(shí)間,但DeepSeek通過工程優(yōu)化突破參數(shù)規(guī)模限制的路徑,為行業(yè)提供了新的發(fā)展思路。







