近期,人工智能領(lǐng)域開源模型與閉源模型的競爭愈發(fā)激烈,開源模型一度面臨被拉開差距的壓力。不過,一家名為DeepSeek的公司憑借新發(fā)布的兩款模型,為開源陣營注入強(qiáng)勁動力,引發(fā)行業(yè)高度關(guān)注。
此次發(fā)布的兩款模型分別為DeepSeek V3.2和DeepSeek-V3.2-Speciale。其中,DeepSeek V3.2展現(xiàn)出與GPT-5相當(dāng)?shù)膶?shí)力,而高性能版DeepSeek-V3.2-Speciale更是表現(xiàn)亮眼,直接超越GPT系列,與被視為閉源模型天花板的Gemini系列打成平手。不僅如此,這兩款模型還在IMO 2025(國際數(shù)學(xué)奧林匹克)、CMO 2025(中國數(shù)學(xué)奧林匹克)等一系列權(quán)威賽事中斬獲金牌,成績斐然。
值得一提的是,這是DeepSeek今年第九次發(fā)布新模型,盡管備受期待的R2模型尚未現(xiàn)身,但此次發(fā)布的新模型已足夠令人驚喜。人們不禁好奇,DeepSeek究竟是如何憑借更小的數(shù)據(jù)量和更少的顯卡資源,打造出能與國際巨頭抗衡的模型?
深入探究發(fā)現(xiàn),DeepSeek為達(dá)成這一目標(biāo),在技術(shù)層面進(jìn)行了諸多創(chuàng)新。首先,他們將稀疏注意力(DSA)技術(shù)正式應(yīng)用于主力模型。稀疏注意力并非首次出現(xiàn),在之前的V3.2-EXP版本中,DeepSeek僅對其進(jìn)行測試,驗證其對模型性能的影響,如今則將其全面融入主力模型。在日常使用大模型時,用戶常遇到這樣的問題:隨著對話內(nèi)容增多,模型回答逐漸混亂,甚至直接拒絕繼續(xù)交流。這源于大模型原生注意力機(jī)制的缺陷,在該機(jī)制下,每個新生成的token都要與之前所有token進(jìn)行計算,導(dǎo)致句子長度增加時,模型計算量呈平方級增長,例如句子長度翻倍,計算量增至四倍,長度變?yōu)槿叮嬎懔縿t變?yōu)榫疟叮瑖?yán)重影響模型處理長文本的能力。而稀疏注意力技術(shù)相當(dāng)于為大模型添加了固定頁數(shù)的“目錄”,幫助模型篩選重點(diǎn)內(nèi)容。此后,模型只需計算當(dāng)前token與“目錄”的關(guān)系,如同閱讀時先看目錄,再根據(jù)興趣深入閱讀相應(yīng)章節(jié),從而顯著提升大模型處理長文本的能力。相關(guān)數(shù)據(jù)表明,隨著句子長度增加,傳統(tǒng)V3.1模型的推理成本不斷攀升,而采用稀疏注意力的V3.2模型推理成本則基本保持穩(wěn)定,有效降低了計算資源消耗。
除了優(yōu)化注意力機(jī)制,DeepSeek還高度重視開源模型的后訓(xùn)練工作。大模型的訓(xùn)練過程類似于人類的學(xué)習(xí)歷程,大規(guī)模預(yù)訓(xùn)練如同從小學(xué)到高二的知識積累階段,無論是閉源模型還是開源模型,在此階段都需全面學(xué)習(xí)各類知識。然而,在高考沖刺階段,即模型的后訓(xùn)練階段,閉源模型通常會投入大量資源,采用強(qiáng)化學(xué)習(xí)等方法進(jìn)行針對性訓(xùn)練,以提升模型在特定任務(wù)上的表現(xiàn)。相比之下,開源模型在此階段的投入相對較少,導(dǎo)致模型雖具備基礎(chǔ)能力,但在解決復(fù)雜問題時表現(xiàn)欠佳。為彌補(bǔ)這一短板,DeepSeek設(shè)計了一套全新的強(qiáng)化學(xué)習(xí)協(xié)議,在預(yù)訓(xùn)練結(jié)束后,投入超過總訓(xùn)練算力10%的資源對模型進(jìn)行強(qiáng)化訓(xùn)練,有效提升了模型應(yīng)對復(fù)雜問題的能力。同時,DeepSeek還推出了擅長長時間思考的特殊版本——DeepSeek V3.2 Speciale。傳統(tǒng)大模型因上下文長度限制,在訓(xùn)練過程中會對深度思考內(nèi)容進(jìn)行標(biāo)注懲罰,思考內(nèi)容過長則扣分。而DeepSeek V3.2 Speciale取消了這一限制,鼓勵模型自由思考,充分發(fā)揮其潛力,最終使其能夠與Gemini 3一較高下。
在智能體能力方面,DeepSeek同樣不遺余力。一方面,為提升模型基礎(chǔ)能力,DeepSeek構(gòu)建虛擬環(huán)境,合成大量數(shù)據(jù)用于輔助訓(xùn)練。具體而言,DeepSeek-V3.2使用了24667個真實(shí)代碼環(huán)境任務(wù)、50275個真實(shí)搜索任務(wù)、4417個合成通用agent場景以及5908個真實(shí)代碼解釋任務(wù)進(jìn)行后訓(xùn)練。另一方面,DeepSeek優(yōu)化了模型調(diào)用工具的流程。此前幾代模型存在一個明顯問題:將思考與調(diào)用工具過程分離,模型調(diào)用外部工具后,需重新構(gòu)建推理鏈,導(dǎo)致效率低下,即使是簡單查詢,如詢問日期,模型也需從頭開始推理。為解決這一問題,DeepSeek對模型架構(gòu)進(jìn)行改進(jìn),在工具調(diào)用過程中,模型的思考過程得以保留,工具調(diào)用記錄和結(jié)果也會像聊天記錄一樣保留在上下文中,僅在用戶提出新問題時重置推理鏈,大大提高了模型使用工具的效率。
盡管DeepSeek的新模型取得顯著進(jìn)步,但仍存在一些不足。例如,在與Gemini 3 Pro的對比測試中,面對同一道復(fù)雜題目,Gemini 3 Pro僅需4972個Tokens即可給出答案,而DeepSeek V3.2 Speciale則需要8077個Tokens,消耗量高出近六成。不過,從成本角度看,DeepSeek具有明顯優(yōu)勢。在該測試中,DeepSeek 8000多個Tokens僅花費(fèi)0.0032美元,而Gemini 3 Pro不到5000個Tokens卻消耗0.06美元,成本高出約20倍。這一對比凸顯出DeepSeek在性價比方面的競爭力。
在開源模型與閉源模型差距逐漸擴(kuò)大的背景下,DeepSeek憑借持續(xù)的技術(shù)創(chuàng)新和優(yōu)化策略,不斷縮小這一差距。其一系列舉措,如從V2的MoE架構(gòu),到V3的多頭潛在注意力(MLA),再到如今DeepSeek Math V2的自驗證機(jī)制以及V3.2的稀疏注意力(DSA),都展現(xiàn)出其在算法研究方面的深厚實(shí)力。DeepSeek致力于在有限數(shù)據(jù)資源的基礎(chǔ)上,挖掘更多智能潛力,為人工智能領(lǐng)域的發(fā)展提供了新的思路和方向。人們不禁期待,DeepSeek未來還將帶來哪些驚喜,尤其是備受矚目的R2模型何時能夠亮相。











