滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

英偉達新突破：ProRL方法助力打造頂級1.5B參數推理AI模型

時間：2025-06-05 15:32:55 來源：ITBEAR編輯：快訊團隊 發表評論無障礙通道

近期，科技界傳來一則引人注目的消息，英偉達研究團隊在人工智能領域取得了重要突破。據科技媒體marktechpost報道，英偉達不僅推出了一種名為ProRL的強化學習方法，還成功開發出了目前全球頂尖的1.5B參數推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。

推理模型，作為專門設計的人工智能系統，其核心在于通過復雜的長鏈推理過程，得出最終的答案。這一技術在近年來備受關注，而強化學習在這一過程中的作用更是不可忽視。此前，DeepSeek和Kimi等團隊已采用可驗證獎勵的強化學習方法（RLVR），推動了GRPO、Mirror Descent和RLOO等算法的發展。

然而，盡管強化學習在理論上被認為能夠提升大型語言模型（LLM）的推理能力，但實際應用中卻面臨諸多挑戰。現有研究表明，RLVR在pass@k指標上并未顯著優于基礎模型，這顯示出推理能力的擴展存在局限性。當前的研究大多聚焦于數學等特定領域，導致模型過度訓練，限制了其探索新領域的潛力。同時，強化學習的訓練步數通常較短，往往僅數百步，這使得模型難以充分發展新的能力。

為了克服這些難題，英偉達研究團隊推出了ProRL方法。他們不僅將強化學習的訓練時間延長至超過2000步，還大大擴展了訓練數據的范圍，涵蓋了數學、編程、STEM、邏輯謎題和指令遵循等多個領域，共計13.6萬個樣本。這一舉措旨在提升模型的泛化能力，使其能夠在不同領域都表現出色。

在ProRL方法的基礎上，英偉達團隊采用了verl框架和改進的GRPO方法，成功開發出了Nemotron-Research-Reasoning-Qwen-1.5B模型。這一模型在多項基準測試中均表現出色，超越了基礎模型DeepSeek-R1-1.5B，甚至在某些方面優于更大的DeepSeek-R1-7B模型。

測試結果顯示，Nemotron-Research-Reasoning-Qwen-1.5B模型在數學領域實現了平均15.7%的提升，編程任務的pass@1準確率提高了14.4%，在STEM推理和指令遵循方面分別提升了25.9%和22.0%，邏輯謎題的獎勵值更是提升了驚人的54.8%。這一系列數據充分展示了該模型在不同領域中的強大推理能力和泛化性能。

英偉達的這一突破無疑為人工智能領域帶來了新的希望和可能。隨著技術的不斷進步和應用的不斷拓展，我們有理由相信，未來將有更多像Nemotron-Research-Reasoning-Qwen-1.5B這樣的優秀模型涌現出來，為人類社會帶來更多的便利和價值。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

三星Galaxy S25 Edge評測：輕薄回歸，智能機新體驗探索

06-09

三星電子將推AI編程助手Cline，軟件開發效率能否一飛沖天？

06-09

智象未來梅濤：多模態大模型如何引領AI產業化新方向？

06-09

英組織聯名呼吁：應限制Meta在風險評估中過度依賴人工智能

06-09

2025年中國教育行業AI應用：深度融合，個性化教育新時代來臨？

06-09

浩鯨科技攜手上海電信浙江移動，DataOps優秀案例引領數據管理升級

06-09

2025年一季度全球AI手機市場格局：蘋果領跑，國產廠商如何突圍？

06-09

蘋果Siri AI升級受阻，年度發布會能否帶來驚喜成疑

06-09

北京新時尚消費方案：數智科技引領VR、AI、元宇宙新體驗

06-09

小布助手思維升級，OPPO ColorOS 攜手DeepSeek R1打造更強AI助手

06-09

北京新舉措：時尚消費融合VR、AI、元宇宙，打造科技消費新體驗

06-09

城市“搶人大戰”再升級，人力資本紅利成關鍵爭奪點！

例如，北京經濟技術開發區針對應屆畢業生推出“求職7日免費住宿、實習3月免費短租、就業3年優惠長租”的階梯式安居體系，這在北京市尚屬首次；深圳喊出了“只收夢想，不收租金”的口號，將應屆畢業生免費住宿天數從7天…

06-09

王自如回歸直播揭秘欠債內幕，誓言絕不踏入帶貨領域

06-09

光模塊狂飆突進！A股八大龍頭業績飆升，行業格局重塑

北美市場作為核心增長極，谷歌、亞馬遜等云服務商的AI算力集群建設帶動了該公司產品需求，使其在全球800G光模塊市場占據約40%份額，穩居行業首位。2024至2025年將是全球AI算力競賽的關鍵窗口期，算力需求…

06-09

上海財大發布“匡時財經教育大模型”，財經教育智能化邁上新臺階！

06-09

點擊查看更多 +

全站最新

比亞迪李云飛：技術創新為矛，比亞迪向世界級新能源品牌進發

紅魔10S Pro《鳴潮》聯名版來襲，6月13日開售僅售5999元

小鵬G7六色車漆驚艷亮相，全球首秀倒計時，你最喜歡哪款顏色？

掌閱iReader Smart X5 Ultra墨水屏辦公本發布，3899元起售輕薄升級

高通24億美元收購Alphawave，半導體IP領域再添大將

日本航天初創Space One“KAIROS”火箭再次發射失敗，現場爆炸起火

熱門內容

本欄最新

三星Galaxy S25 Edge評測：輕薄回歸，智能機新體驗探索

2025年中國教育行業AI應用：深度融合，個性化教育新時代來臨？

浩鯨科技攜手上海電信浙江移動，DataOps優秀案例引領數據管理升級

2025年一季度全球AI手機市場格局：蘋果領跑，國產廠商如何突圍？

小布助手思維升級，OPPO ColorOS 攜手DeepSeek R1打造更強AI助手

北京新舉措：時尚消費融合VR、AI、元宇宙，打造科技消費新體驗

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

英偉達新突破：ProRL方法助力打造頂級1.5B參數推理AI模型

日本精品一区二区三区高清久久