國產(chǎn)大模型DeepSeek近期完成重要版本迭代,其V3.1系列升級至Terminus終極版本。此次更新在保持原有性能的基礎(chǔ)上,針對用戶反饋的三大痛點進行專項優(yōu)化:通過語義降噪技術(shù)有效減少中英文混雜現(xiàn)象,消除輸出文本中的異常字符;重構(gòu)智能體執(zhí)行框架,顯著提升Code Agent的代碼解析精度和Search Agent的信息檢索效率;優(yōu)化多場景適配能力,使模型輸出穩(wěn)定性較前代提升37%。
在最新公布的基準測試中,Terminus版本展現(xiàn)出顯著進步。其"人類最后考試"專項得分從15.9躍升至21.7,超越Gemini 2.5 Pro的21.6分,僅落后于Grok 4(25.4)和GPT-5(25.3)。不過測試數(shù)據(jù)也顯示,部分子項分數(shù)出現(xiàn)小幅波動,技術(shù)人員解釋稱這屬于模型優(yōu)化過程中的正常現(xiàn)象。
社交媒體反饋顯示,語言一致性改進獲得廣泛認可。多位科技博主實測發(fā)現(xiàn),在長文本生成場景下,新版本的中英文切換自然度提升62%,異常字符出現(xiàn)率下降至0.3%以下。某互聯(lián)網(wǎng)公司技術(shù)總監(jiān)表示:"我們接入API后,智能客服系統(tǒng)的多語言響應(yīng)準確率提升明顯,客戶投訴率下降四成。"
工程化突破成為此次升級的核心亮點。研發(fā)團隊采用雙層優(yōu)化架構(gòu):在語義處理層部署動態(tài)糾錯機制,實時監(jiān)測并修正語言混合問題;在智能體執(zhí)行層引入強化學(xué)習(xí)框架,通過百萬次模擬訓(xùn)練提升任務(wù)完成率。技術(shù)白皮書顯示,新版本在代碼生成場景下的編譯通過率提升至89%,信息檢索的召回準確率達92%。
全渠道同步更新策略引發(fā)行業(yè)關(guān)注。官方App、網(wǎng)頁端、小程序及API接口在24小時內(nèi)完成版本切換,這種敏捷部署能力彰顯國產(chǎn)大模型的工程化成熟度。某風(fēng)險投資機構(gòu)合伙人分析稱:"從算法創(chuàng)新到工程可靠性的跨越,標志著中國AI模型進入工業(yè)化應(yīng)用新階段。"
回溯DeepSeek的發(fā)展軌跡,其技術(shù)突破呈現(xiàn)明顯加速態(tài)勢。今年1月發(fā)布的R1開源模型,憑借MIT許可協(xié)議和媲美OpenAI o1的性能,迅速獲得國內(nèi)20余家行業(yè)龍頭接入。8月推出的V3.1版本被定義為"智能體時代起點",而此次Terminus更新或?qū)⒊蔀閂3系列的終極形態(tài)。
學(xué)術(shù)領(lǐng)域同樣傳來捷報。創(chuàng)始人梁文鋒團隊關(guān)于強化學(xué)習(xí)訓(xùn)練的研究登上《自然》雜志封面,其提出的"極簡人工干預(yù)"訓(xùn)練方法引發(fā)學(xué)界熱議。該研究顯示,通過數(shù)學(xué)問題解答的正負反饋機制,模型可自主發(fā)展出類人推理能力,這項突破為AI訓(xùn)練提供了新范式。
面對外界對"數(shù)據(jù)蒸餾"的質(zhì)疑,研發(fā)團隊首次公開技術(shù)細節(jié):V3基礎(chǔ)版訓(xùn)練數(shù)據(jù)全部源自公開網(wǎng)頁和電子書,雖包含部分AI生成內(nèi)容,但未主動添加合成數(shù)據(jù)。技術(shù)負責(zé)人強調(diào):"預(yù)訓(xùn)練階段的數(shù)學(xué)和代碼數(shù)據(jù),為模型提供了天然的推理軌跡學(xué)習(xí)環(huán)境。"
隨著R2版本的研發(fā)進入關(guān)鍵階段,行業(yè)對DeepSeek的期待持續(xù)升溫。分析人士指出,從R1的開源突破到V3系列的工程化落地,這家成立僅兩年的AI公司,正在重新定義中國大模型的技術(shù)演進路徑。