日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

復旦大學AgentGym-RL框架:小模型大智慧,AI智能體學會復雜任務長期規(guī)劃

   時間:2025-09-23 03:54:03 來源:小AI編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

復旦大學研究團隊近期在人工智能訓練領(lǐng)域取得重大突破,開發(fā)出一套名為AgentGym-RL的創(chuàng)新訓練框架。該框架通過模擬人類漸進式學習過程,成功讓僅含70億參數(shù)的小型AI模型在復雜任務中展現(xiàn)出超越千億參數(shù)商業(yè)模型的性能。這項成果已發(fā)表在arXiv平臺,開源代碼和數(shù)據(jù)集同步在GitHub公開。

傳統(tǒng)AI訓練存在顯著局限:多數(shù)系統(tǒng)只能處理單次交互的簡單任務,面對需要多步驟規(guī)劃的復雜場景時表現(xiàn)欠佳。研究團隊形象地比喻,現(xiàn)有AI就像只會背書的學生,缺乏真正的理解和創(chuàng)新能力。在需要持續(xù)互動的任務中,這些系統(tǒng)往往因訓練不穩(wěn)定而崩潰,如同初學者同時學習駕駛和導航般手忙腳亂。

AgentGym-RL框架創(chuàng)造性地設計了五大訓練環(huán)境,構(gòu)建起AI的"虛擬游樂園"。網(wǎng)頁導航環(huán)境模擬真實網(wǎng)站交互,要求AI完成購物、論壇管理等任務;深度搜索環(huán)境訓練信息檢索能力,需整合多個信息源得出結(jié)論;數(shù)字游戲環(huán)境采用文本版Minecraft,考驗策略規(guī)劃和資源管理;具身任務環(huán)境通過虛擬空間導航,測試空間推理能力;科學任務環(huán)境則專注實驗設計和數(shù)據(jù)分析。

研究團隊開發(fā)的ScalingInter-RL訓練方法堪稱框架核心。該方法采用漸進式策略,初期限制AI與環(huán)境的交互次數(shù),使其專注掌握基礎技能,如同教練先讓學員在空曠場地熟悉駕駛。隨著訓練深入,逐步增加交互復雜度,鼓勵探索更高級策略。這種"先易后難"的模式有效解決了傳統(tǒng)強化學習中的探索-利用平衡難題。

實驗數(shù)據(jù)顯示,經(jīng)過AgentGym-RL訓練的70億參數(shù)模型性能提升達33.65個百分點。在網(wǎng)頁導航任務中,該模型準確率達26%,超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任務表現(xiàn)更為突出,取得38.25分的整體得分,接近頂級開源模型DeepSeek-R1-0528的40.25分。在數(shù)字游戲最高難度級別,該模型是少數(shù)獲得非零分數(shù)的系統(tǒng)之一。

研究團隊發(fā)現(xiàn),增加測試時的計算資源能顯著提升模型表現(xiàn)。當交互回合數(shù)從2次增加到30次時,模型準確率穩(wěn)步上升;并行采樣次數(shù)從1次增至64次,成功率提升最高達7.05個百分點。這表明,對于AI智能體而言,戰(zhàn)略性地投入更多計算資源進行推理,比單純增加模型參數(shù)更有效。

算法比較實驗揭示了訓練方法的重要性。GRPO算法在多個任務中表現(xiàn)優(yōu)于REINFORCE++,使用GRPO訓練的30億參數(shù)模型性能甚至超過使用REINFORCE++訓練的70億參數(shù)模型。研究還發(fā)現(xiàn),訓練初期嚴格限制交互次數(shù)能確保穩(wěn)定性,后期逐步放開則有助于學習復雜策略,這種動態(tài)調(diào)整策略取得了最佳效果。

案例分析生動展示了訓練成果。在網(wǎng)頁導航任務中,經(jīng)過強化學習的模型遇到"頁面未找到"錯誤時,會主動回退到主頁使用搜索功能,而基礎模型則陷入無效點擊循環(huán)。具身導航任務中,訓練后的模型能系統(tǒng)性探索環(huán)境,遇到阻礙時選擇替代路徑,基礎模型則常在已探索區(qū)域徘徊。

環(huán)境結(jié)構(gòu)對學習效果的影響研究帶來重要啟示。在規(guī)則明確的模擬環(huán)境中,如數(shù)字游戲和科學實驗,強化學習效果最為顯著,模型得分提升幅度接近50個百分點。而在更開放的網(wǎng)頁導航和深度搜索環(huán)境中,提升幅度相對溫和。這表明訓練初期應優(yōu)先選擇結(jié)構(gòu)化環(huán)境,逐步引入復雜場景。

這項研究不僅在技術(shù)上取得突破,更體現(xiàn)了方法創(chuàng)新的重要性。通過漸進式訓練和多樣化環(huán)境設計,小規(guī)模模型也能獲得強大能力。開源框架的發(fā)布為全球研究者提供了研究基礎,促進了AI智能體技術(shù)的普及。研究顯示,中國在AI基礎研究領(lǐng)域的創(chuàng)新能力正不斷提升,為國際AI社區(qū)貢獻了新的智慧。

對技術(shù)細節(jié)感興趣的讀者可訪問項目GitHub頁面獲取完整代碼和數(shù)據(jù)集,或查閱arXiv平臺上的完整論文(編號:arXiv:2509.08755v1)。這項研究將推動AI從簡單問答向真正理解復雜任務、制定長期計劃的智能伙伴發(fā)展,在網(wǎng)頁操作、信息搜索、科學研究等領(lǐng)域展現(xiàn)廣闊應用前景。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
在线观看一区二区精品视频| 午夜亚洲福利| 国产欧美一级| 国产欧美精品久久| 狠狠色伊人亚洲综合成人 | 国产视频一区二区在线观看| 国产在线麻豆精品观看| 亚洲剧情一区二区| 午夜精品在线| 欧美日韩国产免费观看| 狠狠久久综合婷婷不卡| 亚洲一区免费网站| 欧美精品一区在线播放| 黑人中文字幕一区二区三区| 午夜宅男欧美| 欧美视频在线观看免费| 亚洲国产二区| 狂野欧美性猛交xxxx巴西| 国产精品一卡二卡| 亚洲天堂男人| 欧美视频三区在线播放| 日韩一区二区精品葵司在线| 免费一区视频| 精品动漫3d一区二区三区| 午夜一区二区三视频在线观看| 欧美视频官网| 亚洲香蕉视频| 国产精品二区二区三区| 亚洲图片欧美午夜| 欧美日韩免费观看一区二区三区| 91久久国产综合久久| 欧美暴力喷水在线| 亚洲国产欧洲综合997久久| 久久综合给合| 亚洲大片在线| 欧美精品www在线观看| 亚洲精品久久嫩草网站秘色| 欧美激情aⅴ一区二区三区| 亚洲国内高清视频| 欧美va天堂| 亚洲国产精品久久久久秋霞不卡 | 久久精品亚洲精品国产欧美kt∨| 欧美性猛交99久久久久99按摩 | 亚洲精品免费观看| 欧美另类videos死尸| 亚洲美女中文字幕| 欧美三级日韩三级国产三级| 亚洲一区二区三区精品在线| 国产精品自拍网站| 久久亚洲一区| 一本色道久久综合亚洲精品小说| 欧美三级电影精品| 亚洲欧美久久久| 国产日韩一区二区| 老司机精品久久| 亚洲手机视频| 国产一区二区三区无遮挡| 免费久久久一本精品久久区| 亚洲欧洲一区二区三区| 国产精品成人观看视频免费 | 9人人澡人人爽人人精品| 欧美日韩日本国产亚洲在线| 午夜精品一区二区三区在线视| 国产一区在线视频| 欧美喷水视频| 久久精品盗摄| 日韩一区二区精品视频| 国产午夜精品全部视频在线播放| 免费日韩av片| 午夜精品福利视频| 99在线热播精品免费99热| 国产日韩欧美自拍| 欧美精品激情在线| 久久国产成人| 亚洲图片在线| 亚洲日本免费| 国产自产精品| 国产精品日韩精品| 欧美日韩视频在线一区二区| 久久精品人人做人人综合| 99精品热视频| 亚洲国产精品欧美一二99| 国产日韩在线播放| 国产精品国产自产拍高清av王其| 蜜桃伊人久久| 久久综合久久久久88| 午夜久久黄色| 一区二区三区产品免费精品久久75 | 亚洲一区二区免费看| 亚洲成人中文| 一区三区视频| 好看的日韩视频| 国产目拍亚洲精品99久久精品| 欧美日韩国产区一| 欧美高清视频一区| 久久亚洲欧美| 久久五月天婷婷| 久久精品视频导航| 欧美中文字幕视频| 午夜一级在线看亚洲| 亚洲欧美日韩综合国产aⅴ| 国产精品99久久久久久久久久久久| 亚洲国产精品久久久久秋霞影院| 韩国av一区| 极品尤物久久久av免费看| 国内精品久久久久影院薰衣草| 国产欧美三级| 好看的日韩av电影| 国内不卡一区二区三区| 国产在线日韩| 激情视频一区二区| 亚洲国产天堂久久国产91| 亚洲国产女人aaa毛片在线| 亚洲国产成人精品久久| 亚洲国产高清aⅴ视频| 亚洲国产一区二区在线| 亚洲日韩欧美视频一区| 99国产精品久久久久久久| 99视频一区| 午夜在线精品偷拍| 久久9热精品视频| 久久资源在线| 欧美激情一区二区三区蜜桃视频 | 国产一区二区久久久| 国产亚洲精品一区二区| 精品91久久久久| 亚洲美女少妇无套啪啪呻吟| 在线视频一区观看| 欧美一区二区三区视频| 久久亚洲美女| 欧美精品久久一区| 国产精品一级二级三级| 精品99一区二区三区| 亚洲毛片av| 久久精品国内一区二区三区| 欧美大片在线影院| 国产精品推荐精品| 亚洲国产精品小视频| 亚洲综合成人在线| 免费观看成人www动漫视频| 欧美性大战久久久久久久蜜臀| 国产亚洲综合在线| 一区二区欧美日韩| 卡通动漫国产精品| 国产精品自在线| 亚洲理论在线观看| 久久午夜精品一区二区| 国产精品久久久久免费a∨| 一区二区三区自拍| 亚洲欧美久久久久一区二区三区| 欧美丰满高潮xxxx喷水动漫| 国产欧美日韩一区二区三区在线观看 | 在线免费观看欧美| 一卡二卡3卡四卡高清精品视频 | 亚洲国产人成综合网站| 亚洲资源在线观看| 欧美激情一区| 亚洲黄一区二区三区| 欧美专区在线播放| 国产精品日韩在线观看| 最新精品在线| 蜜桃av综合| 在线观看日韩专区| 午夜视频一区| 国产精品亚洲综合一区在线观看 | 国语自产在线不卡| 亚洲你懂的在线视频| 欧美日韩一区二区三区在线看| 亚洲国产视频一区| 六月婷婷久久| 亚洲高清成人| 欧美激情日韩| 一区二区成人精品| 国产精品爱啪在线线免费观看| 一区二区三区成人| 欧美午夜精品久久久久久超碰| av成人天堂| 国产精品v日韩精品| 亚洲伊人色欲综合网| 国产精品久久久久久久第一福利| 夜夜嗨av色一区二区不卡| 欧美日韩免费在线观看| 亚洲欧美国产高清va在线播| 国产精品视频免费一区| 久久成人精品| 亚洲国产岛国毛片在线| 欧美国产日韩精品| 一区二区三区偷拍| 国产精品视频一二三| 午夜精品影院| 亚洲国产精品成人va在线观看| 欧美成人精品不卡视频在线观看| 夜夜精品视频| 国产亚洲欧洲997久久综合| 久久久久88色偷偷免费| 91久久中文| 国产精品你懂的| 久久亚洲一区| 亚洲综合三区| 在线观看中文字幕不卡|