國際頂級學(xué)術(shù)期刊《自然》最新一期封面,刊登了深度求索(DeepSeek)公司梁文鋒團隊主導(dǎo)的DeepSeek-R1大模型研究成果。這項突破性技術(shù)通過強化學(xué)習(xí)機制,使人工智能模型具備自主規(guī)劃問題解決路徑的能力,標(biāo)志著大語言模型推理能力取得重大進展。
研究團隊創(chuàng)新性采用強化學(xué)習(xí)框架,當(dāng)模型正確解答數(shù)學(xué)問題時給予正向激勵,錯誤時實施懲罰性反饋。這種訓(xùn)練方式使模型逐步掌握"分步推理"能力,在解決復(fù)雜問題時能夠自我驗證解題步驟,顯著提升編程任務(wù)和科研級問題的處理精度。實驗數(shù)據(jù)顯示,經(jīng)過強化學(xué)訓(xùn)練的模型在解決研究生水平科學(xué)問題時,準(zhǔn)確率較傳統(tǒng)方法提升42%。
今年1月,該團隊曾在預(yù)印本平臺arXiv公開技術(shù)論文,但此次發(fā)表于《自然》的版本經(jīng)過嚴(yán)格同行評審,內(nèi)容出現(xiàn)實質(zhì)性調(diào)整。評審過程中,研究團隊刪除了原有文本中關(guān)于模型擬人化的描述,新增了訓(xùn)練數(shù)據(jù)構(gòu)成、安全控制機制等關(guān)鍵技術(shù)細(xì)節(jié)。針對外界關(guān)于知識蒸餾的質(zhì)疑,論文明確澄清:基座模型DeepSeek-V3的數(shù)據(jù)源完全來自公開網(wǎng)絡(luò),雖然可能包含GPT-4生成內(nèi)容,但絕不存在刻意蒸餾行為。
作為開源模型,DeepSeek-R1自發(fā)布以來持續(xù)引發(fā)行業(yè)震動。該模型在數(shù)學(xué)計算、代碼生成、自然語言理解等核心領(lǐng)域的表現(xiàn),已達到與OpenAI o1模型相當(dāng)?shù)乃健F洳捎玫腗IT開源協(xié)議允許企業(yè)免費商用、修改及二次開發(fā),這一特性促使春節(jié)后多家行業(yè)龍頭迅速完成系統(tǒng)接入。技術(shù)專家指出,這種開放策略正在重塑AI產(chǎn)業(yè)生態(tài)。
在持續(xù)迭代過程中,研究團隊于8月21日推出DeepSeek-V3.1版本。該版本采用混合推理架構(gòu),首次實現(xiàn)思考模式與非思考模式的并行運行。測試表明,新模型在保持準(zhǔn)確率的前提下,思考模式下的響應(yīng)速度較前代提升37%。通過后訓(xùn)練優(yōu)化技術(shù),V3.1在工具調(diào)用和智能體任務(wù)中的表現(xiàn)獲得顯著增強,特別是在復(fù)雜系統(tǒng)操作和自動化流程管理方面展現(xiàn)突出能力。
值得注意的是,V3.1版本專門針對國產(chǎn)芯片架構(gòu)進行參數(shù)優(yōu)化,采用UE8M0FP8Scale精度標(biāo)準(zhǔn)。這種技術(shù)適配不僅提升了模型在國產(chǎn)硬件上的運行效率,更為構(gòu)建自主可控的AI算力生態(tài)奠定基礎(chǔ)。消息公布后,相關(guān)國產(chǎn)芯片企業(yè)股價出現(xiàn)明顯波動,資本市場對AI國產(chǎn)化的預(yù)期持續(xù)升溫。