滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

V3.2逼近Gemini 3，DeepSeek硬氣喊話：接下來我要堆算力了

時間：2025-12-02 14:43:39 來源：硅星人Pro編輯：快訊 IP：北京 發表評論無障礙通道

就在上周，OpenAI前首席科學家、現SSI CEO Ilya Sutskever在最新播客訪談中拋出一個重磅觀點，過去五年的“age of scaling”正在走到頭，預訓練數據是有限的，單純用更多GPU堆更大模型，哪怕再放大100 倍，也未必能帶來質變。所以我們又回到了以研究為核心的時代，只不過這次有了巨大的算力”，這一表態被視作對Scaling Law撞墻論的強力佐證。

然而僅過了幾天，12月1日，DeepSeek用V3.2和V3.2-Speciale的發布，給出了一個不同的答案。

模型發布后，DeepSeek研究員Zhibin Gou在X上發文：

“如果Gemini-3證明了持續擴展預訓練的可能性，DeepSeek-V3.2-Speciale則證明了在大規模上下文環境中強化學習的可擴展性。我們花了一年時間將DeepSeek-V3推向極限，得出的經驗是：訓練后的瓶頸需通過優化方法和數據來解決，而非僅等待更好的基礎模型。”

他還補了一句：

“持續擴大模型規模、數據量、上下文和強化學習。別讓那些'遭遇瓶頸'的雜音阻擋你前進。”

這是DeepSeek團隊少有的發聲，而這一幕頗有意味，當行業在討論Scaling Law是否撞墻時，DeepSeek用實打實的模型喊話，想證明Scaling沒死，只是換了戰場。

雖然行業普遍認同后訓練的重要性，但敢把相當于預訓練成本10%以上的算力預算砸在RL上的企業仍屬少數。DeepSeek是真正把這條路線工程化、規模化的代表。

這次發布的兩個模型正是這條路線的產物，V3.2定位日常主力，對標GPT-5；Speciale定位極限推理，對標Gemini 3.0 Pro，并拿下四枚國際競賽金牌。

技術報告Introduction部分有句話值得注意，“過去幾個月，開源社區雖然在持續進步，但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在收窄，而是在擴大。”同時點出了當前開源模型的三個核心短板：

過度依賴普通注意力機制導致長序列效率低下、后訓練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態度很明確，問題有解，而V3.2就是他們給出的答案。

1

V3.2：高效主力，把自我進化用在通用效率上

V3.2是9月發布的實驗版V3.2-Exp的正式繼任者，目標是平衡推理能力與輸出成本。

在推理類Benchmark測試中，V3.2達到了GPT-5水平：AIME 2025數學競賽93.1%（GPT-5為94.6%），HMMT 2025二月賽92.5%（GPT-5為88.3%），LiveCodeBench代碼評測83.3%（GPT-5為84.5%）。相比Kimi-K2-Thinking，V3.2在保持相近性能的同時，輸出Token量大幅降低——嚴格的Token約束和長度懲罰讓它更省、更快、更便宜。

V3.2在架構上的核心改動是引入了DeepSeek Sparse Attention（DSA）。這項技術在9月的V3.2-Exp中首次亮相，用稀疏注意力替代傳統的全量注意力，將計算復雜度從O(L2)降到O(Lk)。

V3.2-Exp上線兩個月后，DeepSeek通過多個維度確認了DSA的有效性：標準Benchmark與V3.1-Terminus基本持平，ChatbotArena的Elo評分接近，第三方長上下文評測反而高出4分。這意味著DeepSeek在底層架構創新上走對了路，稀疏注意力可以在不損失性能的前提下大幅提升效率。

V3.2還有一個重要突破，這是DeepSeek首個將“思考”與“工具調用”融合的模型。之前的推理模型（包括OpenAI的o系列）在思考模式下無法調用工具，V3.2打破了這個限制，同時支持思考模式和非思考模式的工具調用。

技術報告中篇幅最大的部分是Agent能力的訓練方法。DeepSeek構建了一套大規模的Agent任務合成流水線，覆蓋1800+環境和85000+復雜指令。

這套流水線的核心設計哲學是“難解答，易驗證”。以報告中的旅行規劃任務為例：復雜約束組合讓搜索空間巨大，但驗證方案是否滿足約束卻很簡單。這種特性天然適合強化學習，模型可以通過大量嘗試獲得明確的對錯反饋，不需要人工標注。

效果驗證很有說服力，只用合成數據做RL的模型，在Tau2Bench、MCP-Mark等Agent基準上顯著提升，而只在真實環境做RL的模型，這些指標幾乎沒有變化。

值得注意的是，官方特別強調，V3.2并沒有針對這些測試集的工具進行特殊訓練，但在Agent評測中仍達到開源最高水平。這說明模型的泛化能力是真實的，不是靠刷榜優化出來的。

1

V3.2-Speciale：極限推理，把自我驗證用在高階邏輯上

Speciale是V3.2的"長思考增強版"。如果說V3.2通過嚴格的Token約束來優化效率，Speciale則反其道而行——放寬長度限制，鼓勵模型進行更深度的推理。

技術報告中的Table 3很有意思：同樣的任務，Speciale的輸出Token量顯著高于其他模型。比如在AIME 2025上，GPT-5 High輸出13k tokens，Gemini 3.0 Pro輸出15k，而Speciale輸出23k；在Codeforces上差距更大，Speciale輸出77k tokens，是Gemini的3.5倍。

雖然Speciale的Token輸出量極大，但得益于DeepSeek的定價策略和DSA帶來的效率提升，即便算上這些額外的"思考過程"，其最終使用成本依然碾壓對手：比GPT-5便宜約25倍（$0.4 vs $10），比Gemini 3.0 Pro便宜約30倍（$12），比Claude Opus 4.5便宜約62倍（$25）。

Speciale的意義不只是“讓模型想更久”，而是驗證了一個重要的假設，對推理“過程”的監督，能否從數學證明泛化到更廣泛的領域？

上周剛發布的DeepSeekMath-V2提出了“生成器-驗證器”雙模型架構，生成器負責產出證明，驗證器評估證明的嚴謹性和完整性，驗證結果作為reward信號反饋給生成器。這套機制的關鍵創新在于如何保持“生成-驗證差距”，當生成器變強后，驗證器也需要同步提升。DeepSeek的解決方案是動態擴展驗證計算，用更多計算資源自動標注“難以驗證”的證明，持續合成高難度訓練數據，實現模型的可持續自我進化。

Speciale整合了Math-V2的數據集和獎勵方法，不只追求最終答案正確，更追求推理過程的嚴謹性和完整性。它將這套原本用于數學定理證明的“過程監督”，成功遷移到了代碼生成和通用邏輯任務中。這意味著“自我驗證”不是數學領域的特例，而是一種可泛化的能力提升范式。結果也相當不錯：

1

不缺算力的DeepSeek會帶來什么？

有網友評論說，每篇DeepSeek論文最重要的部分永遠是“結論、局限性與未來工作”部分。這次的技術報告也不例外，他們說：“首先，由于總訓練FLOPs較少，DeepSeek-V3.2 的世界知識廣度仍落后于領先的閉源模型。我們計劃在后續版本中，通過擴大預訓練算力來彌補這一知識差距。”

報告中承認，由于總訓練FLOPs較少，V3.2 的世界知識廣度仍落后于 Gemini 3.0 Pro。但 DeepSeek 的選擇并不是等待一個更大的基礎模型，而是先把方法論打磨到極致，用一年時間，通過合成數據、自我驗證和大規模 RL，把后訓練的上限真正跑出來。

從這次的發布也能看出這條路線的成果：

V3.2 將“自我進化式工程”（高 RL 預算、合成數據閉環）應用在通用效率上；

Speciale 則把過程獎勵與自我驗證機制推向高階邏輯推理。

兩者共同指向同一個方向：未來的模型不再依賴人力堆砌，而是依靠自我博弈實現持續演進。

下一步就是擴大預訓練算力來彌補知識差距。這也讓人聯想，一是如果DeepSeek真把算力補上來，會發生什么？二是，這些新的算力資源從哪里來？

回頭看過去一年的技術路徑，Janus的多模態統一架構、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗證……這些創新都是在V3這個基座上迭代出來的。

那么，一個參數更大、訓練 FLOPs 更多的 V4，再疊加這些已經驗證有效的方法論，會出現怎樣的化學反應？

一個合理、甚至是大膽的預期是，當 V4 或 R2 到來時，我們看到的可能已經不是傳統意義上的“更強語言模型”，而是一個能夠感知多模態環境、具備更長期記憶、并能在真實交互中持續進化的系統。如今發生在合成環境中的自我博弈，未來可能會延伸到真實環境的在線學習。

更多>同類資訊

京東租18年舊A330貨機：跨境物流變局下的精打細算與生死博弈

12月，京東租下了一架服役18年的舊A330飛機。全球貨運熱潮一到，這些改裝廠的訂單一下多得接不過來，誰能搶到舊機殼，誰就能打通跨境貨運的油水管道。京東拼的是給飛機裝滿貨，泰坦航空看準了亞洲跨境這波行情，…

12-13

從藍到橙：餓了么融入阿里生態，開啟即時零售全域新征程

這些數字不僅為“餓了么+淘寶”的組合拳打出了聲勢，撐起了淘寶閃購這塊新品牌的長期價值，更讓外界開始重新審視：在即時零售這片兵家必爭之地，阿里究竟有著怎樣的決心與潛力？一位早期成員特地撰文肯定：“這是餓了么長…

12-13

京東方董事長下周訪三星共商電視LCD與手機OLED供應量提升事宜

12-13

Meta豪擲千億押注元宇宙AI卻陷困局：12年布局難敵后來者攪局背后藏隱憂

12-13

錘子TNT曾被指“超前”誤判，GPT浪潮下羅永浩理念意外獲李楠肯定

12-13

抖音官方外呼熱線統一為95152，助力用戶識詐防騙解難題

12-13

廣汽明年夏攜純電動車闖日本市場，中國車企加速“出海”競爭升溫

12-13

小米公司嚴正澄清：所謂“不讓賣小米”純屬惡意歪曲污蔑之舉

12-13

馬斯克放話Waymo難抗衡：特斯拉Robotaxi三周內撤安全員純無人載客

12-13

抖音入局線下支付市場：“抖音買單”能否打破微信支付寶雙雄格局？

12-13

上海交大攜手國星宇航共建國內首個太空計算實驗室加速產業布局

12-13

禾賽科技2026年CES將展多款激光雷達 ATX煥新版訂單超400萬臺

12-13

“小米公司不讓賣小米”風波落幕當事人道歉承諾規范網絡言行

12-13

港股IPO熱潮涌動，投行薪酬看漲，部分崗位年薪或突破300萬港元

12-13

波司登中期業績：營利雙增創新高，增速放緩下多元布局謀長遠發展

12-12

點擊查看更多 +

全站最新

嵐圖追光L“破曉”登場：以硬核實力叩響中國豪華轎車新大門

smart #1「滬上時髦局」亮相上海，以潮流改裝與沉浸體驗解鎖冬日新玩法

新能源豪華新選擇！27.99萬起嵐圖追光L上市，實力比肩BBA

上汽奧迪A5L紅運限定版來襲，29.19萬享專屬運動風，值不值得買？

嵐圖追光L攜“技術平權”入場，與奔馳E級對決誰能稱霸豪華車市？

家庭出行新選擇：一汽豐田RAV4榮放與本田CR-V全方位對比解析

熱門內容

本欄最新

京東租18年舊A330貨機：跨境物流變局下的精打細算與生死博弈

從藍到橙：餓了么融入阿里生態，開啟即時零售全域新征程

BOE（京東方）深圳智享會啟幕以四大維度勾勒“煥新2026”產業新生態

小米汽車開啟現車選購模式，準新車上架，品牌累計交付破50萬大關

小米汽車“冰火兩重天”：SU7遇冷YU7熱銷，現車策略引市場熱議

小米汽車現車選購上新！雷軍解讀準新車：運輸致損原廠車經官方修復檢驗

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

V3.2逼近Gemini 3，DeepSeek硬氣喊話：接下來我要堆算力了

日本精品一区二区三区高清久久