人工智能領域再迎重要進展,DeepSeek團隊近日宣布推出新一代大語言模型DeepSeek-V3.1-Terminus,并同步開源模型代碼。這款被命名為"Terminus"(拉丁語意為"終點"或"界限")的模型,在官方技術文檔中被描述為現有架構的成熟版本,標志著該技術路線進入穩定階段。
據官方披露,新模型在保持原有功能的基礎上,重點修復了此前版本存在的兩個關鍵缺陷。其一,針對用戶反饋的隨機異常字符輸出問題,團隊通過優化模型訓練機制,徹底解決了在特定場景下可能出現的"極"、"extreme"等無意義字符重復現象。測試數據顯示,在涉及Go語言編程、版本號處理等高危場景中,新模型未再出現異常輸出。
另一個被修復的缺陷涉及多語言處理。此前版本在翻譯小語種內容時,存在中、英、俄三種語言混用的情況,錯誤比例最高達5%。新模型通過強化語言邊界識別能力,顯著提升了翻譯準確性。實測表明,在將包含復雜語義的句子翻譯為7種小語種時,未出現語言混雜現象。
性能提升方面,基準測試顯示新模型在非Agent類任務中實現0.2%-36.5%的性能提升。特別是在人類終極測試(HLE)中,模型展現出更強的專家級知識掌握能力和多模態推理水平。該測試重點考察模型處理高難度知識問題和深度推理的能力,新模型在此環節的表現提升尤為突出。
在智能體能力優化方面,新模型展現出顯著進步。編程測試中,模型成功實現了具有物理效果的小球彈跳動畫,其模擬的重力、摩擦力等物理特性獲得專業人士認可。這項測試不僅要求模型具備扎實的編程基礎,更需要其對物理學原理有準確理解。
搜索智能體能力測試顯示,新模型在信息交叉驗證和整合方面表現優異。當被要求推薦適合新手陽臺種植的可食用植物時,模型能夠準確篩選出同時滿足"生長快速"、"對兒童安全"等條件的植物品種,并主動提示相關種植注意事項。經人工核查,其提供的信息完整且可靠。
目前,DeepSeek官方App、網頁端、小程序及API接口均已完成模型升級。開發者可通過HuggingFace和ModelScope平臺獲取開源代碼。技術團隊透露,新模型的命名可能暗示著當前技術路線的成熟,但關于"Terminus"的具體寓意,官方尚未給出明確解釋。
值得注意的是,此前有海外媒體報道DeepSeek計劃在年底前推出Agent模型。隨著本次升級的完成,業界普遍關注該團隊是否會加速推進更復雜的智能體技術研發。新模型在編程終端和跨模態推理方面的突破,為后續發展奠定了技術基礎。