阿里巴巴近日宣布,正式開源其首個深度研究智能體模型——通義DeepResearch,為全球開發(fā)者攻克復(fù)雜研究任務(wù)提供了全新工具。該模型在多個權(quán)威評測基準(zhǔn)中表現(xiàn)亮眼,以30億激活參數(shù)的輕量化設(shè)計,超越了基于OpenAI o3、DeepSeek V3.1及Claude-4-Sonnet等旗艦?zāi)P蜆?gòu)建的ReAct智能體。
在Humanity’s Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA及frames等評測集中,通義DeepResearch通過創(chuàng)新的訓(xùn)練框架與推理策略,實現(xiàn)了性能突破。其核心優(yōu)勢在于解決了傳統(tǒng)“單窗口、線性累加”模式在長周期任務(wù)中面臨的“認(rèn)知空間窒息”與“不可逆噪聲污染”問題,確保復(fù)雜推理任務(wù)的高質(zhì)量完成。
研發(fā)團(tuán)隊構(gòu)建了以Qwen3-30B-A3B模型為基礎(chǔ)的合成數(shù)據(jù)驅(qū)動訓(xùn)練鏈路,覆蓋預(yù)訓(xùn)練與后訓(xùn)練全流程。該鏈路通過異步強(qiáng)化學(xué)習(xí)算法與自動化數(shù)據(jù)策展流程,結(jié)合真實與虛擬環(huán)境訓(xùn)練模塊,顯著提升了模型迭代效率與泛化能力。例如,在處理需要多步驟驗證的研究任務(wù)時,模型可動態(tài)調(diào)整信息處理優(yōu)先級,避免傳統(tǒng)方法中因信息過載導(dǎo)致的性能衰減。
推理階段,團(tuán)隊設(shè)計了雙模式架構(gòu):ReAct模式用于精準(zhǔn)評估模型基礎(chǔ)能力,適用于快速驗證場景;Heavy模式則通過test-time scaling策略,充分釋放模型性能潛力,確保在跨領(lǐng)域、長周期任務(wù)中維持高水準(zhǔn)推理。這種設(shè)計使模型既能高效處理簡單查詢,也可應(yīng)對需要深度分析的復(fù)雜問題。
目前,通義DeepResearch的模型代碼、訓(xùn)練框架及部署方案已通過GitHub、Hugging Face及魔搭社區(qū)全面開源。開發(fā)者可自由下載30億參數(shù)版本(A3B)的模型權(quán)重與訓(xùn)練工具,快速構(gòu)建定制化研究智能體。此舉延續(xù)了阿里巴巴今年以來在AI智能體領(lǐng)域的開源策略,此前發(fā)布的WebWalker、WebDancer等檢索推理模型均已成為開源社區(qū)標(biāo)桿工具。
行業(yè)分析指出,通義DeepResearch的開源為深度研究賽道提供了“輕量化+高性能”的全新范式。其通過合成數(shù)據(jù)訓(xùn)練與異步強(qiáng)化學(xué)習(xí)的結(jié)合,降低了對大規(guī)模真實數(shù)據(jù)的依賴,同時保持了模型在復(fù)雜場景下的推理魯棒性。這一特性對醫(yī)療、金融、科研等需要處理海量結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的領(lǐng)域具有重要價值。