滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

伯克利開源AI編程冠軍DeepSWE：強化學習打造，訓練細節(jié)全揭秘

時間：2025-07-07 17:18:13 來源：ITBEAR編輯：快訊團隊 IP：北京 發(fā)表評論無障礙通道

在人工智能編程領域，一場革命性的突破正在悄然發(fā)生。新晉AI編程冠軍DeepSWE，憑借其純強化學習的訓練方式，在基準測試中取得了59%的準確率，這一成績大幅刷新了現有技術的上限。

DeepSWE的誕生，打破了長期以來閉源模型在該領域的壟斷地位。這款開源軟件工程模型，基于Qwen3-32B架構，完全通過強化學習進行訓練，無需依賴任何“老師模型”。這一創(chuàng)新性的訓練方法，使得DeepSWE能夠從零開始，逐步成長為一個性能卓越的智能體。

DeepSWE的訓練過程充滿了挑戰(zhàn)與創(chuàng)新。它采用了模塊化RL后訓練框架rLLM，這一框架使得用戶能夠輕松構建一個由強化學習訓練的AI助手，極大地簡化了訓練流程。同時，DeepSWE在R2E-Gym訓練環(huán)境中進行訓練，該環(huán)境為高質量可執(zhí)行軟件工程（SWE）任務提供了可擴展的管理方案。

在動作空間方面，R2E-Gym定義了包括執(zhí)行Bash命令、搜索、文件編輯和完成/提交等四個工具。這些工具共同構成了DeepSWE在訓練過程中的操作基礎。而獎勵模型則采用了一種稀疏的結果獎勵模型（ORM），通過簡單的“成功/失敗”獎勵信號，DeepSWE自發(fā)地學會了高級程序員才具備的復雜行為，如主動思考邊緣案例和回歸測試，以及根據任務復雜程度自適應調整思考深度。

算法方面，DeepSWE摒棄了傳統(tǒng)的蒸餾方法，僅使用強化學習進行直接訓練。研發(fā)人員獨家改良的GRPO++算法，在之前的基礎上進行了增強，進一步提升了模型的穩(wěn)定性和性能。還整合了包括Clip High (DAPO)、無KL損失（DAPO）、無獎勵標準差（Dr.GRPO）、長度歸一化（Dr.GRPO）、一法（Loop/RLOO）、緊湊過濾和無熵損失在內的七個算法，共同構成了DeepSWE的訓練配方。

其中，“緊湊過濾”算法對模型訓練尤為關鍵。它不僅有效防止了訓練過程中的獎勵崩潰，還減少了每一步的過度思考，鼓勵跨步驟的長篇推理，從而顯著提升了模型的性能。

然而，訓練過程中也遇到了不少挑戰(zhàn)。特別是在擴展SWE-Bench環(huán)境時，由于需要同時啟動大量Docker容器，一度導致Docker崩潰。為了解決這一問題，研發(fā)人員將Kubernetes支持集成到了R2E-Gym環(huán)境中，實現了容器的高效調度。同時，為每個服務器配備了高性能硬件，并提前下載了所需軟件鏡像，以確保訓練過程的順利進行。

在評估策略方面，DeepSWE采用了“測試時擴展（TTS）”策略，通過多方案生成和智能驗證的方式，將性能推向了新的高度。通過擴展上下文長度和擴展代理部署兩種方法，DeepSWE在SWE-Bench Verified上達到了59%的準確率，實現了新的技術上限。

DeepSWE的成功，離不開其背后的研發(fā)團隊。項目負責人Michael Luo，加州大學伯克利分校電氣工程與計算機科學系博士生，對人工智能和系統(tǒng)領域有著深入的研究。他帶領的團隊，憑借出色的研發(fā)能力和創(chuàng)新精神，成功打造了這款開源軟件工程模型。

DeepSWE的誕生，標志著人工智能編程領域的一次重大突破。它不僅刷新了技術的上限，更為未來的軟件開發(fā)和智能化轉型提供了無限可能。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

小米16系列大升級：四款新機齊發(fā)，小屏Pro與Ultra Max成亮點

比較讓人驚喜的是，小米 16 Pro 系列首次推出 6.3 英寸小屏版本，這將是安卓陣營首款真正意義上的「小屏 Pro 旗艦」！爆料稱Pro 系列或將采用全新的橫向大矩陣 Deco 設計，模組面積約占機…

07-07

華為盤古團隊正式回應：盤古Pro MoE模型未抄襲阿里通義千問

智通財經APP獲悉，近日，有消息指，華為盤古大模型涉嫌抄襲阿里巴巴通義千問模型。對此，7月5日，華為盤古ProMoE技術開發(fā)團隊發(fā)表聲明稱，盤古Pro MoE開源模型是基于昇騰硬件平臺開發(fā)、訓練的基礎大模型…

07-07

華為盤古團隊正式回應：盤古Pro MoE模型未抄襲阿里通義千問

智通財經APP獲悉，近日，有消息指，華為盤古大模型涉嫌抄襲阿里巴巴通義千問模型。對此，7月5日，華為盤古ProMoE技術開發(fā)團隊發(fā)表聲明稱，盤古Pro MoE開源模型是基于昇騰硬件平臺開發(fā)、訓練的基礎大模型…

07-07

科協(xié)揭曉30大科技難題，涵蓋前沿科學、工程技術及產業(yè)技術領域

第二階段由23位戰(zhàn)略科學家組成終選學術委員會，從前沿性、引領性、創(chuàng)新性、戰(zhàn)略性四個維度嚴格評議，評選出基于密碼學視角的人工智能安全新理論和防護體系等10個前沿科學問題、面向通信與智能融合的智簡網絡技術體系等1…

07-07

小米16系列大揭秘：四款新機齊發(fā)，Ultra Max或成手機單反新標桿

比較讓人驚喜的是，小米 16 Pro 系列首次推出 6.3 英寸小屏版本，這將是安卓陣營首款真正意義上的「小屏 Pro 旗艦」！爆料稱Pro 系列或將采用全新的橫向大矩陣 Deco 設計，模組面積約占機…

07-07

考立佳AI科技峰會與感恩答謝會：共繪教育未來，見證學子榮耀時刻

6月30日，"智鑒未來·考立佳AI數字科技研討峰會"于鄭州易元深航國際酒店盛大啟幕，全國教育界專家學者與行業(yè)領袖齊聚，共探人工智能在應試教育中的創(chuàng)新實踐；而緊隨其后的高考答謝活動則以溫情點燃盛夏——2025屆…

07-07

ChatGPT成醫(yī)療助手，助用戶發(fā)現十年未解MTHFR基因突變

07-07

皮克斯首席創(chuàng)意官：AI技術尚顯乏味，人類動畫創(chuàng)作價值無可替代

07-07

OpenAI新招：研究員駐留計劃，低成本培育AI新星應對人才戰(zhàn)

07-07

GPT-5即將面世：OpenAI整合多模型，打造全新功能體驗

07-07

保險業(yè)聯(lián)手呼吁：莫讓十年AI監(jiān)管真空危及消費者權益

07-07

歐盟堅守AI法案時間表，巨頭面臨緊迫合規(guī)挑戰(zhàn)，2026年中正式生效

07-07

客易云數字人API：以“連接力”為核心，驅動AI時代商業(yè)生態(tài)共贏

客易云集團基于這一洞察，推出數字人API開放生態(tài)，通過“標準化接口+場景化工具鏈+全球化資源網絡”，將數字人核心技術轉化為可靈活調用的“商業(yè)連接器”，助力企業(yè)以最小成本實現用戶觸達、服務升級與生態(tài)共贏，重新定…

07-06

AI浪潮下，英偉達與微軟誰能率先突破4萬億美元市值大關？

07-06

華為盤古大模型風波：內部員工揭露研發(fā)過程中的套殼與續(xù)訓問題

但是后面據說被領導攔了下來，因為更高級別的領導（比如姚老師，以及可能熊總和查老）其實后面也知道了，但是并不管，因為通過套殼拿出好的結果，對他們也是有利的。在當時團隊的核心成員的極力爭取下，盤古開始了第三代模…

07-06

點擊查看更多 +

全站最新

2025全球公司市值大變局：英偉達登頂，特斯拉跌出前十強

Win11 25H2新功能：用戶可通過組策略輕松卸載預裝Microsoft Store應用

蘋果揭秘：iPhone耐用之謎，平衡設計、耐用與可修復性贏得市場

華為Mate 80系列影像大升級：50MP超大底主攝配物理可變光圈來襲

小米169元磁吸紙巾盒引熱議：價格背后是品質還是品牌溢價？

紅米K90系列10月來襲：電池容量逼近8000mAh，性能全面升級

熱門內容

本欄最新

華為盤古團隊正式回應：盤古Pro MoE模型未抄襲阿里通義千問

科協(xié)揭曉30大科技難題，涵蓋前沿科學、工程技術及產業(yè)技術領域

小米16系列大揭秘：四款新機齊發(fā)，Ultra Max或成手機單反新標桿

考立佳AI科技峰會與感恩答謝會：共繪教育未來，見證學子榮耀時刻

客易云數字人API：以“連接力”為核心，驅動AI時代商業(yè)生態(tài)共贏

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

伯克利開源AI編程冠軍DeepSWE：強化學習打造，訓練細節(jié)全揭秘

日本精品一区二区三区高清久久