近期,開(kāi)源模型與閉源模型之間的差距呈現(xiàn)擴(kuò)大趨勢(shì),但DeepSeek發(fā)布的兩款新模型為開(kāi)源陣營(yíng)注入新活力。此次推出的DeepSeek V3.2及高性能版本DeepSeek-V3.2-Speciale,在性能測(cè)試中展現(xiàn)出強(qiáng)勁實(shí)力。其中V3.2與GPT-5展開(kāi)激烈角逐,而Speciale版本更是在國(guó)際數(shù)學(xué)奧林匹克(IMO 2025)和中國(guó)數(shù)學(xué)奧林匹克(CMO 2025)等權(quán)威賽事中斬獲金牌,甚至與閉源模型領(lǐng)域的標(biāo)桿產(chǎn)品Gemini形成均勢(shì)。
這家公司今年已連續(xù)發(fā)布九款模型,盡管備受期待的R2版本尚未問(wèn)世,但其技術(shù)突破已引發(fā)行業(yè)關(guān)注。通過(guò)優(yōu)化算法架構(gòu),DeepSeek成功突破傳統(tǒng)模型的計(jì)算瓶頸。以稀疏注意力機(jī)制(DSA)為例,該技術(shù)通過(guò)引入"固定頁(yè)數(shù)目錄"的智能篩選方式,將注意力計(jì)算范圍從全局壓縮至關(guān)鍵區(qū)域。實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)輸入文本長(zhǎng)度增加時(shí),采用傳統(tǒng)架構(gòu)的V3.1模型推理成本呈指數(shù)級(jí)上升,而搭載DSA的V3.2版本則保持穩(wěn)定,有效解決了長(zhǎng)文本處理中的算力浪費(fèi)問(wèn)題。
在模型訓(xùn)練策略上,DeepSeek開(kāi)創(chuàng)性地將強(qiáng)化學(xué)習(xí)引入后訓(xùn)練階段。傳統(tǒng)開(kāi)源模型在此環(huán)節(jié)普遍存在投入不足的問(wèn)題,導(dǎo)致模型雖具備基礎(chǔ)能力卻難以應(yīng)對(duì)復(fù)雜任務(wù)。為此,研究團(tuán)隊(duì)設(shè)計(jì)全新強(qiáng)化學(xué)習(xí)協(xié)議,投入超過(guò)總訓(xùn)練算力10%的資源進(jìn)行專項(xiàng)優(yōu)化。這種"名師輔導(dǎo)"模式顯著提升了模型在數(shù)學(xué)推理、代碼生成等領(lǐng)域的表現(xiàn),特別是Speciale版本通過(guò)取消傳統(tǒng)模型對(duì)思考時(shí)長(zhǎng)的限制,允許模型進(jìn)行深度持續(xù)思考,最終實(shí)現(xiàn)與Gemini 3的正面交鋒。
針對(duì)智能體(Agent)能力的提升,研究團(tuán)隊(duì)構(gòu)建了包含24667個(gè)真實(shí)代碼環(huán)境、50275個(gè)搜索任務(wù)及4417個(gè)合成場(chǎng)景的虛擬訓(xùn)練環(huán)境。在工具調(diào)用機(jī)制方面,新模型徹底改革了前代產(chǎn)品"思考-調(diào)用"割裂的缺陷。現(xiàn)在模型能完整保留工具調(diào)用過(guò)程中的推理鏈條,將工具查詢記錄作為上下文持續(xù)保留,僅在用戶發(fā)起新提問(wèn)時(shí)重置推理狀態(tài)。這種改進(jìn)使模型處理簡(jiǎn)單查詢(如日期查詢)的效率提升數(shù)倍,避免了重復(fù)構(gòu)建推理路徑的算力消耗。
盡管取得顯著進(jìn)步,DeepSeek團(tuán)隊(duì)在技術(shù)論文中坦誠(chéng)披露現(xiàn)存不足。測(cè)試數(shù)據(jù)顯示,在解答專業(yè)問(wèn)題時(shí),Speciale版本平均消耗8077個(gè)Token,較Gemini 3的4972個(gè)高出61%。但成本對(duì)比呈現(xiàn)戲劇性反轉(zhuǎn):DeepSeek的解決方案單價(jià)僅為0.0032美元,不足谷歌同類產(chǎn)品0.06美元的二十分之一。這種"高消耗低價(jià)格"的特性,使其在預(yù)算敏感型應(yīng)用場(chǎng)景中展現(xiàn)出獨(dú)特優(yōu)勢(shì)。
技術(shù)演進(jìn)路徑方面,DeepSeek的選擇與行業(yè)主流形成鮮明對(duì)比。當(dāng)多數(shù)企業(yè)通過(guò)擴(kuò)大參數(shù)規(guī)模提升性能時(shí),該團(tuán)隊(duì)持續(xù)深耕算法優(yōu)化領(lǐng)域。從V2版本的混合專家架構(gòu)(MoE),到V3引入的多頭潛在注意力機(jī)制(MLA),再到當(dāng)前版本采用的稀疏注意力技術(shù),每次迭代都聚焦于算力效率的提升。這種發(fā)展模式印證了OpenAI前首席科學(xué)家Ilya Sutskever的觀點(diǎn):?jiǎn)渭兌哑鲇布Y源無(wú)法引領(lǐng)行業(yè)未來(lái),算法創(chuàng)新才是突破性能瓶頸的關(guān)鍵。








