中國AI領域迎來歷史性時刻——DeepSeek公司憑借其R1大模型研究成果,成為首家登上《自然》雜志封面的中國AI企業(yè)。這一突破性成就標志著中國在基礎大模型研究領域正式躋身全球頂尖行列,此前僅有DeepMind憑借AlphaGo和AlphaFold獲得過同等殊榮。
最新披露的Nature版本論文首次公開了R1模型的訓練成本細節(jié):該660億參數(shù)規(guī)模的模型僅耗資29.4萬美元(約合人民幣208萬元)完成訓練。研究團隊使用512張H800 GPU,R1-Zero訓練耗時198小時,R1訓練耗時80小時,按每GPU小時2美元的租賃價格計算得出總成本。這一數(shù)據(jù)與行業(yè)動輒千萬美元級的訓練投入形成鮮明對比,年初發(fā)布時即在美股市場引發(fā)強烈震動。
在數(shù)據(jù)構建方面,研究團隊徹底駁斥了"模型輸出循環(huán)輸入"的質疑。公開的補充材料顯示,R1訓練數(shù)據(jù)集包含五大類別:數(shù)學數(shù)據(jù)集收錄2.6萬道定量推理題(含競賽題和考試題),代碼數(shù)據(jù)集包含1.7萬道算法競賽題和8千道代碼修復問題,STEM數(shù)據(jù)集涵蓋2.2萬道物理、化學、生物選擇題,邏輯數(shù)據(jù)集包含1.5萬道真實與合成問題,通用數(shù)據(jù)集則包含6.6萬道覆蓋創(chuàng)意寫作、文本編輯等場景的評估題。
安全性評估體系成為另一大亮點。研究團隊構建了多維評估框架:包括官方服務風險控制系統(tǒng)、六個公開安全基準的橫向對比、內(nèi)部安全測試集的分類學研究、多語言安全評估以及越獄攻擊魯棒性測試。評估結果顯示,R1模型基礎安全水平與GPT-4o相當,通過配套風險控制系統(tǒng)可進一步提升防護能力。
技術實現(xiàn)路徑方面,研究團隊采用純強化學習框架突破傳統(tǒng)依賴。以DeepSeek-V3-Base為基礎模型,通過GRPO(群體相對策略優(yōu)化)算法進行數(shù)千步強化訓練,使R1-Zero在AIME 2024數(shù)學基準測試中pass@1分數(shù)從15.6%躍升至71.0%,經(jīng)多數(shù)表決后更達86.7%,性能媲美OpenAI o1模型。后續(xù)推出的R1模型通過冷啟動數(shù)據(jù)、拒絕采樣、監(jiān)督微調(diào)等多階段優(yōu)化,解決了初始版本的可讀性和語言混合問題。
學術影響力持續(xù)發(fā)酵。截至當前統(tǒng)計,該研究在谷歌學術已被引用3596次,HuggingFace平臺開源模型下載量突破1090萬次(居開源模型首位),GitHub獲得9.11萬顆星標。評審專家、Hugging Face工程師Lewis Tunstall特別指出,這是首個通過同行評審的大型語言模型研究,為學術界樹立了重要標桿。俄亥俄州立大學Huan Sun教授評價稱,該研究自發(fā)布以來已實質性影響全球大模型強化學習研究方向。
開源生態(tài)建設展現(xiàn)中國AI新范式。研究團隊在HuggingFace平臺全面公開了R1和R1-Zero的模型權重,同步開源基于Qwen2.5和Llama3架構的蒸餾模型。這種透明化研究模式獲得國際學術界高度認可,論文特別強調(diào)的"推理模式遷移"技術,已證明可使Qwen2.5-32B等基礎模型通過知識蒸餾獲得顯著性能提升。