最新一期《自然》雜志封面研究引發(fā)科技界高度關(guān)注,中國團(tuán)隊研發(fā)的DeepSeek-R1大語言模型成為首個通過國際頂級學(xué)術(shù)期刊同行評審的同類成果。這項突破性研究系統(tǒng)展示了如何通過強(qiáng)化學(xué)習(xí)技術(shù),在極少人工干預(yù)條件下訓(xùn)練出具備自主推理能力的AI模型。
研究團(tuán)隊創(chuàng)新性采用三階段訓(xùn)練框架:首先構(gòu)建無需監(jiān)督微調(diào)的DeepSeek-R1-Zero基礎(chǔ)模型,通過群組相對策略優(yōu)化(GRPO)技術(shù)降低計算成本,該技術(shù)通過群體評分估算基準(zhǔn)值,避免使用與主模型同等規(guī)模的評估模型。在獎勵機(jī)制設(shè)計上,研究人員同時引入準(zhǔn)確度獎勵和格式規(guī)范獎勵,形成雙重優(yōu)化導(dǎo)向。
實驗過程中觀察到模型展現(xiàn)驚人進(jìn)化能力。在數(shù)學(xué)推理任務(wù)訓(xùn)練中,系統(tǒng)自主發(fā)展出多步推理能力,生成的思考過程長達(dá)數(shù)千個token。中期訓(xùn)練階段出現(xiàn)關(guān)鍵突破點,模型學(xué)會動態(tài)調(diào)整思考策略,通過重新評估初始方法優(yōu)化計算資源分配。這種自我優(yōu)化能力使模型在編程挑戰(zhàn)和復(fù)雜科學(xué)問題求解中表現(xiàn)突出。
針對基礎(chǔ)模型存在的語言混雜和可讀性缺陷,研究團(tuán)隊開發(fā)出冷啟動數(shù)據(jù)增強(qiáng)方案。通過收集數(shù)千個長思維鏈(CoT)示范數(shù)據(jù),結(jié)合人工后處理優(yōu)化,顯著提升輸出質(zhì)量。實驗數(shù)據(jù)顯示,采用冷啟動微調(diào)的模型在可讀性指標(biāo)上提升42%,同時保持核心推理能力不受影響。
強(qiáng)化學(xué)習(xí)階段引入語言一致性獎勵機(jī)制,通過計算目標(biāo)語言詞匯占比解決多語言混輸問題。盡管該約束導(dǎo)致數(shù)學(xué)解題準(zhǔn)確率輕微下降(約2.3%),但顯著改善了用戶交互體驗。最終獎勵函數(shù)整合準(zhǔn)確率指標(biāo)和語言規(guī)范指標(biāo),形成復(fù)合優(yōu)化目標(biāo)。
在模型泛化能力提升方面,研究團(tuán)隊采用拒絕采樣技術(shù)從訓(xùn)練檢查點提取高質(zhì)量數(shù)據(jù),結(jié)合寫作、角色扮演等通用領(lǐng)域樣本,構(gòu)建出包含60萬例的混合訓(xùn)練集。經(jīng)過篩選的推理軌跡數(shù)據(jù)確保每個問題僅保留正確解答,有效提升模型可靠性。
第二階段強(qiáng)化學(xué)習(xí)著重優(yōu)化模型實用性與安全性。針對推理任務(wù)沿用規(guī)則獎勵機(jī)制,對通用場景則采用深度學(xué)習(xí)獎勵模型捕捉人類偏好。這種雙軌制訓(xùn)練使模型在保持頂尖推理性能的同時,顯著提升對話友好度和內(nèi)容安全性。
知識蒸餾實驗取得突破性進(jìn)展。研究人員使用DeepSeek-R1生成的80萬例示范數(shù)據(jù),對Qwen和Llama等開源模型進(jìn)行微調(diào),使7B參數(shù)規(guī)模的小模型在數(shù)學(xué)推理任務(wù)中達(dá)到與百億參數(shù)模型相當(dāng)?shù)乃健;鶞?zhǔn)測試顯示,蒸餾模型在GSM8K數(shù)據(jù)集上取得89.7%的準(zhǔn)確率,較基礎(chǔ)模型提升31.2個百分點。
學(xué)術(shù)界對該研究給予高度評價。審稿人Lewis Tunstall指出,這項工作開創(chuàng)了AI研發(fā)透明化的新范式,其公開的訓(xùn)練流程和評估方法為行業(yè)樹立重要標(biāo)桿。俄亥俄州立大學(xué)AI實驗室主任Huan Sun強(qiáng)調(diào),嚴(yán)格的同行評審機(jī)制有效驗證了模型可靠性,這種科學(xué)驗證方法應(yīng)當(dāng)成為行業(yè)標(biāo)配。
技術(shù)細(xì)節(jié)顯示,DeepSeek-R1在MATH數(shù)據(jù)集取得91.3%的準(zhǔn)確率,超越多數(shù)同類模型;在Codeforces編程競賽模擬測試中達(dá)到專家級(2200分)水平。多階段訓(xùn)練架構(gòu)使模型兼具深度推理能力和通用場景適應(yīng)性,這種平衡性在現(xiàn)有大語言模型中表現(xiàn)突出。