中國人工智能領域迎來重大突破,DeepSeek-AI團隊在《自然》雜志發表的開源模型DeepSeek-R1研究成果登上封面。該研究提出了一種通過純強化學習提升大語言模型推理能力的新方法,顯著減少了對人工標注數據的依賴。
與傳統訓練方式不同,DeepSeek-R1采用組相對策略優化算法,僅根據最終答案的正確性進行獎勵,而非要求模型模仿人類推理路徑。這種"粗放式"訓練方法意外地激發了模型的自我反思、自我驗證等高級行為。在數學測試中,該模型在美國數學邀請賽的準確率從15.6%躍升至86.7%,超越人類平均水平。
研究團隊披露,DeepSeek-R1的推理成本僅為29.4萬美元,加上基礎模型訓練的600萬美元開銷,整體成本遠低于國外巨頭動輒數千萬美元的投入。這種低成本奇跡打破了AI領域"資金即壁壘"的固有認知,為行業提供了更具可持續性的發展路徑。
DeepSeek-R1的成功背后,是創始人梁文鋒長達十年的技術積累。這位1985年出生于廣東湛江的工程師,2002年考入浙江大學電子信息工程專業,碩士階段開始研究機器視覺。2008年畢業后,他將人工智能技術應用于量化交易領域,先后創辦雅克比投資和幻方科技。2023年,他轉向通用人工智能研發,創立DeepSeek并迅速推出V2、V3模型。
梁文鋒的團隊建設理念獨具特色,核心崗位多由應屆畢業生和年輕工程師組成。他堅信"能力為先",認為可以通過內部培養打造頂尖團隊。這種理念與低成本研發策略相輔相成,使DeepSeek在性價比方面形成獨特優勢。
《自然》雜志評論稱,DeepSeek的研究表明模型可以在沒有人類推理示范的情況下,通過強化學習自主形成復雜思維模式。Hugging Face工程師Lewis Tunstall認為這項研究"開啟了一場革命",其方法論正在被全球多個團隊應用于改進現有大語言模型。
這項突破不僅證明了中國AI的技術實力,更展示了不依賴海量標注數據的創新路徑。當行業還在進行"數據與算力軍備競賽"時,DeepSeek-R1已經為"算法與智慧創新競賽"樹立了新標桿,將AI發展的主動權交還給了科學創新本身。