人工智能領域迎來一項突破性進展——清華大學聯(lián)合北京大學、DeepLang AI及伊利諾伊大學香檳分校的研究團隊,開發(fā)出名為EAGLET的創(chuàng)新訓練框架,使AI智能體在復雜長期任務中展現(xiàn)出接近人類的全局規(guī)劃能力。這項成果已發(fā)表于arXiv預印本平臺,編號arXiv:2510.05608v1,為解決AI"無腦試錯"的痛點提供了全新解決方案。
傳統(tǒng)AI在處理簡單任務時表現(xiàn)優(yōu)異,但面對需要多步驟協(xié)調(diào)的復雜場景時,往往陷入盲目探索的困境。研究團隊以"準備晚餐"為例:若缺乏整體規(guī)劃,AI可能先燒水再買菜,最終因烤箱未預熱而手忙腳亂。這種"走一步看一步"的模式,導致效率低下且成功率堪憂。現(xiàn)有訓練方法要么依賴昂貴的人工標注數(shù)據(jù),要么通過海量試錯積累經(jīng)驗,均無法實現(xiàn)真正的全局把控。
EAGLET框架的核心突破在于將規(guī)劃與執(zhí)行徹底解耦。研究團隊首先構建了"冷啟動"階段,利用GPT-5等頂級大模型生成初始規(guī)劃樣本,再通過"同源共識過濾"機制篩選優(yōu)質數(shù)據(jù)。該機制采用兩個能力不同但架構相似的執(zhí)行器(基礎版與專家版Llama-3.1-8B模型),讓它們在有無規(guī)劃指導下分別執(zhí)行任務。只有當兩個執(zhí)行器在使用規(guī)劃時均顯著提升表現(xiàn),該規(guī)劃才會被保留用于訓練。這種雙重驗證機制確保了訓練數(shù)據(jù)的高質量。
在強化學習階段,團隊創(chuàng)新性地提出"執(zhí)行器能力增益獎勵"(ECGR)機制。與傳統(tǒng)方法單純以任務完成率為指標不同,ECGR通過比較不同能力執(zhí)行器在有無規(guī)劃指導下的性能差異,量化規(guī)劃的實際價值。例如,對于簡單任務,規(guī)劃器會生成簡潔步驟;面對復雜場景,則提供詳細指導。這種"因材施教"的能力,使規(guī)劃器能靈活應對各種難度級別的任務。
實驗驗證環(huán)節(jié),研究團隊在三個典型場景中展開測試:ScienceWorld模擬科學實驗室環(huán)境,要求AI完成測量物質熔點等實驗;ALFWorld模擬家庭場景,需執(zhí)行"將加熱杯子放入櫥柜"等家務;WebShop則構建在線購物環(huán)境,考驗AI根據(jù)需求搜索商品的能力。結果顯示,配備EAGLET的智能體在所有場景中均表現(xiàn)卓越:ScienceWorld中已見任務成功率提升20%,未見任務提升25%;ALFWorld平均提升超15%;WebShop提升約10%。更關鍵的是,這些提升伴隨著步驟數(shù)的顯著減少,證明規(guī)劃器有效避免了無效探索。
訓練效率方面,EAGLET展現(xiàn)出驚人優(yōu)勢。傳統(tǒng)強化學習需數(shù)百次迭代才能收斂,而EAGLET僅需約50次即可達到優(yōu)異性能,訓練成本降低8倍。這種效率提升源于高質量初始數(shù)據(jù)和精準獎勵設計,使訓練過程更具針對性。訓練完成的規(guī)劃器具有強通用性,可輕松適配不同執(zhí)行器,無需重復訓練。
消融實驗進一步揭示了各組件的貢獻:移除同源共識過濾導致性能下降3%,取消ECGR機制則下降5%,證明數(shù)據(jù)質量與獎勵設計同等重要。團隊還發(fā)現(xiàn),將規(guī)劃信息直接嵌入任務指令的效果最佳,這為后續(xù)優(yōu)化提供了方向。對比實驗顯示,EAGLET生成的規(guī)劃在正確性、可操作性和標準化程度上均優(yōu)于直接使用GPT-4.1的規(guī)劃,證明專門訓練的優(yōu)越性。
具體案例中,"將熱杯子放入櫥柜"任務暴露了傳統(tǒng)方法的缺陷:無規(guī)劃智能體反復聲明任務完成卻未實際執(zhí)行;傳統(tǒng)MPO方法因錯誤假設陷入循環(huán);而EAGLET智能體則系統(tǒng)搜索杯子,發(fā)現(xiàn)錯誤后及時糾正,最終僅用16步高效完成任務。這種目標導向的決策模式,標志著AI從反應式向預見式的轉變。
盡管成果顯著,研究團隊也指出當前局限:實驗主要基于文本交互環(huán)境,多模態(tài)場景適用性需進一步驗證;同源共識過濾依賴多個執(zhí)行器,某些場景可能受限;跨領域泛化能力仍有提升空間。針對這些問題,團隊計劃探索多模態(tài)規(guī)劃、輕量化評估機制及更強泛化能力,推動技術向更廣泛應用場景拓展。
這項研究為AI發(fā)展開辟了新路徑。傳統(tǒng)方法側重模仿人類行為,而EAGLET讓機器學會像人類一樣思考規(guī)劃。這種轉變使AI從被動工具升級為主動助手,能夠理解深層需求、提出解決方案并協(xié)助實現(xiàn)復雜目標。在工業(yè)機器人裝配、服務機器人護理、自動駕駛導航等領域,這種全局規(guī)劃能力將成為核心競爭優(yōu)勢。對技術細節(jié)感興趣的讀者,可通過論文編號arXiv:2510.05608v1查閱完整內(nèi)容。











