DeepSeek公司近期宣布,其DeepSeek R1模型已經完成了新一輪的小版本升級,新版本命名為DeepSeek-R1-0528。此次升級不僅引起了業界的廣泛關注,還帶來了多項能力的提升。
據了解,在28日晚上,DeepSeek通過官方渠道突然發布消息,稱DeepSeek R1模型的小版本試升級已經完成,并邀請用戶前往官方網站、App及小程序進行測試。這一消息迅速在行業內傳播開來,引發了眾多用戶的試用熱潮。
與此同時,TechWeb也對新版DeepSeek-R1模型進行了親測和用戶試用體驗的報道,指出新版模型在代碼能力方面表現出色,但在寫作幻覺方面仍有待改進。報道還提供了詳細的測試鏈接,供讀者進一步了解。
DeepSeek官方對DeepSeek-R1-0528的能力進行了詳細介紹。新版本依然基于2024年12月發布的DeepSeek V3 Base模型,但在后訓練過程中增加了更多的算力投入,使得模型的思維深度和推理能力得到了顯著提升。
據官方透露,更新后的R1模型在數學、編程及通用邏輯等多個基準測評中取得了優異成績,整體表現已接近國際頂尖模型,如o3和Gemini-2.5-Pro。特別是在AIME 2025測試中,新版模型的準確率從舊版的70%提升至87.5%,這一進步得益于模型在推理過程中思維深度的增強。
DeepSeek團隊還利用DeepSeek-R1-0528的思維鏈后訓練了Qwen3-8B Base,得到了DeepSeek-R1-0528-Qwen3-8B。該8B模型在數學測試AIME 2024中的表現僅次于DeepSeek-R1-0528,超越了Qwen3-8B,與Qwen3-235B相當。DeepSeek團隊認為,這一思維鏈對于學術界推理模型的研究和工業界小模型的開發都具有重要意義。
除了推理能力的提升,新版DeepSeek R1還在其他方面進行了優化。針對“幻覺”問題,新版模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低了約45%~50%,能夠提供更準確、可靠的結果。同時,在創意寫作方面,新版模型能夠輸出篇幅更長、結構內容更完整的長篇作品,寫作風格也更加貼近人類偏好。
在工具調用方面,DeepSeek-R1-0528支持工具調用,但暫不支持在思考過程中進行工具調用。當前模型的Tau-Bench測評成績與OpenAI o1-high相當,但與o3-High及Claude 4 Sonnet仍有差距。新版R1在前端代碼生成、角色扮演等領域的能力也有所提升。
API方面,新版R1 API已同步更新,接口與調用方式保持不變。同時,新版API增加了Function Calling和JsonOutput的支持,并對max_tokens參數的含義進行了調整。現在,max_tokens用于限制模型單次輸出的總長度(包括思考過程),默認為32K,最大為64K。API用戶需及時調整max_tokens參數,以防輸出被提前截斷。
雖然官方網站、小程序、App端和API中的模型上下文長度仍為64K,但用戶如有更長上下文長度的需求,可通過第三方平臺調用上下文長度為128K的開源版本R1-0528模型。
在模型開源方面,DeepSeek-R1-0528與之前的DeepSeek-R1使用相同的base模型,僅改進了后訓練方法。私有化部署時,用戶只需更新checkpoint和tokenizer_config.json(tool calls相關變動)。模型參數為685B(其中14B為MTP層),開源版本上下文長度為128K(網頁端、App和API提供64K上下文)。
此次開源倉庫(包括模型權重)依然采用MIT License,并允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。