在軟件工程領(lǐng)域的國際頂級(jí)盛會(huì)ISSTA 2025上,一項(xiàng)來自企業(yè)的研究成果榮獲了最高榮譽(yù)——杰出論文獎(jiǎng)。獲獎(jiǎng)作品題為《SWE-GPT:面向自動(dòng)化軟件改進(jìn)的以流程為中心的語言模型》,由通義靈碼團(tuán)隊(duì)傾力打造。
這篇論文深度剖析了通義靈碼SWE-GPT的研發(fā)細(xì)節(jié),從數(shù)據(jù)合成到模型訓(xùn)練,再到實(shí)驗(yàn)測(cè)評(píng),每一步都透露出創(chuàng)新的光芒。SWE-GPT以通義千問Qwen2.5為起點(diǎn),通過模擬人類程序員的思考路徑,學(xué)習(xí)并解決軟件工程中的復(fù)雜問題。團(tuán)隊(duì)更是獨(dú)辟蹊徑,采用合成數(shù)據(jù)進(jìn)行迭代訓(xùn)練,成功跨越了現(xiàn)有基礎(chǔ)大模型的局限。
在模型訓(xùn)練階段,通義靈碼團(tuán)隊(duì)展現(xiàn)出了卓越的策略眼光。他們采用課程學(xué)習(xí)方法,逐步增加訓(xùn)練樣本的復(fù)雜度,確保SWE-GPT在鞏固基礎(chǔ)能力的同時(shí),能夠應(yīng)對(duì)更加棘手的問題。這一策略無疑增強(qiáng)了模型的魯棒性,為其在后續(xù)測(cè)試中取得佳績奠定了堅(jiān)實(shí)基礎(chǔ)。
實(shí)驗(yàn)測(cè)評(píng)環(huán)節(jié),SWE-GPT的表現(xiàn)同樣令人矚目。在權(quán)威基準(zhǔn)SWE-bench-Verified的測(cè)試中,SWE-GPT 72B以30.20%的問題解決率刷新了開源紀(jì)錄,相較于Llama 3.1 405B提升了22.76%,其性能已逼近同時(shí)期的閉源模型GPT-4o。而輕量級(jí)SWE-GPT 7B模型同樣不甘示弱,以18.20%的解決率超越了Llama 3.1 70B,展現(xiàn)了小尺寸模型在復(fù)雜軟件維護(hù)任務(wù)中的巨大潛力。
更令人興奮的是,SWE-GPT的框架具有極高的可擴(kuò)展性。通義靈碼團(tuán)隊(duì)在此基礎(chǔ)上引入了思考能力和測(cè)試時(shí)擴(kuò)展技術(shù),使得小尺寸(32B)模型在SWE-bench-Verified上的問題解決率飆升至46%,這一成績已逼近業(yè)界領(lǐng)先的閉源模型Claude 3.5 Sonnet v2和OpenAI o1。
ISSTA評(píng)審委員會(huì)專家對(duì)SWE-GPT給予了高度評(píng)價(jià):“SWE-GPT作為一種新穎的以軟件開發(fā)流程為中心的大語言模型,其提出的數(shù)據(jù)合成方案真實(shí)模擬了實(shí)際軟件開發(fā)過程,為AI輔助軟件開發(fā)領(lǐng)域帶來了重大突破。”通義靈碼算法負(fù)責(zé)人李永彬也表示:“在軟件工程智能化領(lǐng)域,僅靠現(xiàn)有基礎(chǔ)模型已無法滿足真實(shí)場景的需求。SWE-GPT的出現(xiàn),為AI輔助軟件開發(fā)提供了新的范式和思路。”
ISSTA作為軟件工程領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,本屆共收到550篇投稿,最終錄用107篇,其中僅有9篇被評(píng)為杰出論文。SWE-GPT能夠脫穎而出,無疑是對(duì)其創(chuàng)新性和實(shí)用性的最好證明。