阿里旗下首個(gè)深度研究Agent模型——通義DeepResearch正式開(kāi)源,引發(fā)AI圈高度關(guān)注。該模型在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試中表現(xiàn)亮眼,不僅在號(hào)稱(chēng)“人類(lèi)最后考試”的HLE榜單中以32.9%的成績(jī)超越DeepSeek-V3.1(29.8%)和OpenAI DeepResearch(26.6%),更在BrowseComp榜單上以43.4%的準(zhǔn)確率領(lǐng)跑開(kāi)源模型。
這款30B參數(shù)(激活3B)的模型之所以能實(shí)現(xiàn)“小體量、大能量”,核心在于其獨(dú)特的訓(xùn)練體系。研究團(tuán)隊(duì)構(gòu)建了“智能體合成數(shù)據(jù)”體系,通過(guò)Agentic CPT(增量預(yù)訓(xùn)練)技術(shù),將海量知識(shí)文檔、網(wǎng)頁(yè)數(shù)據(jù)、知識(shí)圖譜及工具使用記錄整合為開(kāi)放世界記憶庫(kù),自動(dòng)生成高質(zhì)量訓(xùn)練數(shù)據(jù)。這種“機(jī)器生產(chǎn)”模式不僅擺脫了對(duì)人工標(biāo)注的依賴(lài),更通過(guò)動(dòng)作合成技術(shù)生成規(guī)劃、推理、決策三類(lèi)數(shù)據(jù),使模型在離線(xiàn)狀態(tài)下即可探索海量推理路徑。
在數(shù)據(jù)處理層面,團(tuán)隊(duì)開(kāi)發(fā)了WebSailor V2全自動(dòng)合成方案,通過(guò)隨機(jī)游走構(gòu)建知識(shí)圖譜、策略性隱藏關(guān)鍵信息、集合論形式化建模等手段,確保生成的問(wèn)題既貼近真實(shí)場(chǎng)景又具有足夠復(fù)雜度。特別針對(duì)跨學(xué)科難題,該方案能驅(qū)動(dòng)配備網(wǎng)絡(luò)搜索、學(xué)術(shù)檢索工具的Agent,在循環(huán)中深化問(wèn)題,實(shí)現(xiàn)任務(wù)難度的可控升級(jí)。
面對(duì)長(zhǎng)程復(fù)雜任務(wù),通義DeepResearch創(chuàng)新采用雙模式推理架構(gòu)。標(biāo)準(zhǔn)任務(wù)下,模型通過(guò)ReAct模式(思考-行動(dòng)-觀察)憑借128K超長(zhǎng)上下文進(jìn)行多輪次快速交互;極端復(fù)雜任務(wù)則啟動(dòng)Heavy模式,將任務(wù)分解為多個(gè)研究輪次,每輪僅提取精華結(jié)論構(gòu)建新工作空間,通過(guò)“綜合-重構(gòu)”迭代保持認(rèn)知焦點(diǎn)。這種設(shè)計(jì)有效解決了傳統(tǒng)單窗口模式的信息過(guò)載問(wèn)題,使模型在HLE、BrowseComp等基準(zhǔn)上持續(xù)刷新紀(jì)錄。
訓(xùn)練流程方面,團(tuán)隊(duì)打通了“Agentic CPT→SFT→Agentic RL”端到端鏈路,首次提出兩階段增量預(yù)訓(xùn)練范式。在強(qiáng)化學(xué)習(xí)環(huán)節(jié),基于GRPO定制優(yōu)化的算法通過(guò)token級(jí)策略梯度損失函數(shù)、留一法策略降低估計(jì)方差,配合大批量訓(xùn)練維持監(jiān)督信號(hào)穩(wěn)定性。動(dòng)態(tài)指標(biāo)顯示,模型獎(jiǎng)勵(lì)值持續(xù)上升且策略熵保持高位,表明其始終處于探索進(jìn)化狀態(tài)。
基礎(chǔ)設(shè)施層面,團(tuán)隊(duì)構(gòu)建了全棧式訓(xùn)練環(huán)境:利用離線(xiàn)維基百科和自定義工具套件創(chuàng)建的仿真平臺(tái),擺脫了對(duì)實(shí)時(shí)Web API的依賴(lài);工具沙盒通過(guò)緩存結(jié)果、失敗重試等機(jī)制保障交互穩(wěn)定性;自動(dòng)數(shù)據(jù)管理系統(tǒng)形成“生成-訓(xùn)練”正向循環(huán);基于rLLM的異步框架實(shí)現(xiàn)多智能體并行訓(xùn)練。這些創(chuàng)新使模型從基座開(kāi)始,通過(guò)預(yù)訓(xùn)練、微調(diào)、強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我進(jìn)化。
實(shí)際應(yīng)用中,通義DeepResearch已賦能高德“小高老師”和“通義法睿”兩大產(chǎn)品。在高德V16版本中,基于Qwen模型微調(diào)的POI推理Agent能處理地理區(qū)域、交通約束、時(shí)間約束等多維度信息,例如用戶(hù)要求“在西湖邊找評(píng)分4.5以上、有兒童餐、距地鐵站1公里內(nèi)的浙菜館”,AI可立即給出最優(yōu)解及路線(xiàn)規(guī)劃。法律領(lǐng)域,“通義法睿”通過(guò)迭代式規(guī)劃執(zhí)行多步查詢(xún),依托真實(shí)判例和法規(guī)提供可追溯分析,在答案要點(diǎn)、案例引用、法條引用質(zhì)量上超越同類(lèi)產(chǎn)品。
目前,開(kāi)發(fā)者可在Hugging Face、GitHub、ModelScope獲取模型及技術(shù)報(bào)告。GitHub項(xiàng)目已獲7.2k星標(biāo),顯示出社區(qū)的高度認(rèn)可。Hugging Face聯(lián)合創(chuàng)始人及斯坦福NLP實(shí)驗(yàn)室等科技大V的轉(zhuǎn)發(fā)關(guān)注,進(jìn)一步印證了該成果的技術(shù)影響力。