全球頂尖學術期刊《自然》(Nature)最新一期封面,被來自中國的AI團隊DeepSeek摘得。今年初,由梁文鋒領銜的研究團隊發布論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,首次證明僅通過強化學習(RL)即可激發大語言模型(LLM)的深度推理能力。這一突破性成果不僅登上封面,更引發學界與產業界的廣泛關注。
研究團隊顛覆傳統訓練范式,以DeepSeek-V3 Base模型為基礎,完全摒棄監督微調(SFT)階段,轉而采用極簡的強化學習框架。模型僅需接收兩項指令:答案需包含
訓練過程中,研究人員捕捉到令人驚嘆的自我進化現象。隨著迭代深入,模型在
盡管DeepSeek-R1-Zero展現出驚人推理能力,但純強化學習導致的語言混亂與通用能力不足問題亟待解決。研究團隊設計四階段精煉流程:首先用數千條高質量對話數據微調模型語言習慣;隨后通過強化學習平衡推理能力與語言流暢性;再將推理數據與海量通用數據混合訓練;最終通過復雜獎勵模型強化模型安全性與人類偏好對齊。經多輪優化,模型在Alpacaeval 2.0等基準測試中性能提升17%-25%,同時保持數學、編程領域的頂尖水準。
訓練算法創新方面,團隊摒棄傳統PPO算法,采用更高效的GRPO(組相對策略優化)。該算法通過組內競爭機制,讓模型針對同一問題生成16個不同答案,依據相對表現優化策略。這種"集體智慧"模式使資源消耗降低60%,同時保持訓練穩定性。獎勵系統設計同樣精妙:數學、編程等任務采用嚴格規則獎勵,確保答案完全正確;寫作、對話等通用任務則引入基于模型的獎勵,通過對比海量"好答案"與"壞答案"學習人類偏好。
開源后,DeepSeek-R1在Hugging Face平臺創下1090萬次下載紀錄,成為全球首個通過同行評審的主流大模型。審稿人、Hugging Face工程師Lewis Tunstall指出:"這項研究證明,僅靠強化學習就能達到頂尖性能,其他團隊正嘗試將該方法擴展至更多領域。"俄亥俄州立大學研究員Huan Sun強調:"嚴格的同行評審驗證了模型有效性,這種透明研究模式值得全行業借鑒。"
面對結構化輸出、工具調用等能力局限,以及主觀任務獎勵設計等挑戰,研究團隊已啟動下一代模型研發。值得注意的是,DeepSeek-R1的訓練成本較同類模型降低80%,這種高效訓練模式或將成為AI發展的新標桿。隨著研究方法被全球實驗室復現,一場由強化學習驅動的AI推理革命正在拉開序幕。