滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 信息流 > 正文內(nèi)容

阿里通義DeepResearch開(kāi)源來(lái)襲，博士難題輕松解，AI深度研究新典范

時(shí)間：2025-09-18 17:25:52 來(lái)源：新智元編輯：快訊團(tuán)隊(duì) IP：北京 發(fā)表評(píng)論無(wú)障礙通道

阿里旗下首個(gè)深度研究Agent模型——通義DeepResearch正式開(kāi)源，引發(fā)AI圈高度關(guān)注。該模型在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試中表現(xiàn)亮眼，不僅在號(hào)稱(chēng)“人類(lèi)最后考試”的HLE榜單中以32.9%的成績(jī)超越DeepSeek-V3.1（29.8%）和OpenAI DeepResearch（26.6%），更在BrowseComp榜單上以43.4%的準(zhǔn)確率領(lǐng)跑開(kāi)源模型。

這款30B參數(shù)（激活3B）的模型之所以能實(shí)現(xiàn)“小體量、大能量”，核心在于其獨(dú)特的訓(xùn)練體系。研究團(tuán)隊(duì)構(gòu)建了“智能體合成數(shù)據(jù)”體系，通過(guò)Agentic CPT（增量預(yù)訓(xùn)練）技術(shù)，將海量知識(shí)文檔、網(wǎng)頁(yè)數(shù)據(jù)、知識(shí)圖譜及工具使用記錄整合為開(kāi)放世界記憶庫(kù)，自動(dòng)生成高質(zhì)量訓(xùn)練數(shù)據(jù)。這種“機(jī)器生產(chǎn)”模式不僅擺脫了對(duì)人工標(biāo)注的依賴(lài)，更通過(guò)動(dòng)作合成技術(shù)生成規(guī)劃、推理、決策三類(lèi)數(shù)據(jù)，使模型在離線(xiàn)狀態(tài)下即可探索海量推理路徑。

在數(shù)據(jù)處理層面，團(tuán)隊(duì)開(kāi)發(fā)了WebSailor V2全自動(dòng)合成方案，通過(guò)隨機(jī)游走構(gòu)建知識(shí)圖譜、策略性隱藏關(guān)鍵信息、集合論形式化建模等手段，確保生成的問(wèn)題既貼近真實(shí)場(chǎng)景又具有足夠復(fù)雜度。特別針對(duì)跨學(xué)科難題，該方案能驅(qū)動(dòng)配備網(wǎng)絡(luò)搜索、學(xué)術(shù)檢索工具的Agent，在循環(huán)中深化問(wèn)題，實(shí)現(xiàn)任務(wù)難度的可控升級(jí)。

面對(duì)長(zhǎng)程復(fù)雜任務(wù)，通義DeepResearch創(chuàng)新采用雙模式推理架構(gòu)。標(biāo)準(zhǔn)任務(wù)下，模型通過(guò)ReAct模式（思考-行動(dòng)-觀察）憑借128K超長(zhǎng)上下文進(jìn)行多輪次快速交互；極端復(fù)雜任務(wù)則啟動(dòng)Heavy模式，將任務(wù)分解為多個(gè)研究輪次，每輪僅提取精華結(jié)論構(gòu)建新工作空間，通過(guò)“綜合-重構(gòu)”迭代保持認(rèn)知焦點(diǎn)。這種設(shè)計(jì)有效解決了傳統(tǒng)單窗口模式的信息過(guò)載問(wèn)題，使模型在HLE、BrowseComp等基準(zhǔn)上持續(xù)刷新紀(jì)錄。

訓(xùn)練流程方面，團(tuán)隊(duì)打通了“Agentic CPT→SFT→Agentic RL”端到端鏈路，首次提出兩階段增量預(yù)訓(xùn)練范式。在強(qiáng)化學(xué)習(xí)環(huán)節(jié)，基于GRPO定制優(yōu)化的算法通過(guò)token級(jí)策略梯度損失函數(shù)、留一法策略降低估計(jì)方差，配合大批量訓(xùn)練維持監(jiān)督信號(hào)穩(wěn)定性。動(dòng)態(tài)指標(biāo)顯示，模型獎(jiǎng)勵(lì)值持續(xù)上升且策略熵保持高位，表明其始終處于探索進(jìn)化狀態(tài)。

基礎(chǔ)設(shè)施層面，團(tuán)隊(duì)構(gòu)建了全棧式訓(xùn)練環(huán)境：利用離線(xiàn)維基百科和自定義工具套件創(chuàng)建的仿真平臺(tái)，擺脫了對(duì)實(shí)時(shí)Web API的依賴(lài)；工具沙盒通過(guò)緩存結(jié)果、失敗重試等機(jī)制保障交互穩(wěn)定性；自動(dòng)數(shù)據(jù)管理系統(tǒng)形成“生成-訓(xùn)練”正向循環(huán)；基于rLLM的異步框架實(shí)現(xiàn)多智能體并行訓(xùn)練。這些創(chuàng)新使模型從基座開(kāi)始，通過(guò)預(yù)訓(xùn)練、微調(diào)、強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我進(jìn)化。

實(shí)際應(yīng)用中，通義DeepResearch已賦能高德“小高老師”和“通義法睿”兩大產(chǎn)品。在高德V16版本中，基于Qwen模型微調(diào)的POI推理Agent能處理地理區(qū)域、交通約束、時(shí)間約束等多維度信息，例如用戶(hù)要求“在西湖邊找評(píng)分4.5以上、有兒童餐、距地鐵站1公里內(nèi)的浙菜館”，AI可立即給出最優(yōu)解及路線(xiàn)規(guī)劃。法律領(lǐng)域，“通義法睿”通過(guò)迭代式規(guī)劃執(zhí)行多步查詢(xún)，依托真實(shí)判例和法規(guī)提供可追溯分析，在答案要點(diǎn)、案例引用、法條引用質(zhì)量上超越同類(lèi)產(chǎn)品。

目前，開(kāi)發(fā)者可在Hugging Face、GitHub、ModelScope獲取模型及技術(shù)報(bào)告。GitHub項(xiàng)目已獲7.2k星標(biāo)，顯示出社區(qū)的高度認(rèn)可。Hugging Face聯(lián)合創(chuàng)始人及斯坦福NLP實(shí)驗(yàn)室等科技大V的轉(zhuǎn)發(fā)關(guān)注，進(jìn)一步印證了該成果的技術(shù)影響力。

更多>同類(lèi)資訊

A股反攻號(hào)角吹響，降息潮下核心主線(xiàn)引領(lǐng)，突破4000點(diǎn)曙光初現(xiàn)

股票名稱(chēng) ["首創(chuàng)證券","長(zhǎng)城證券"] 板塊名稱(chēng)["機(jī)器人","無(wú)人駕駛","華為與阿里產(chǎn)業(yè)鏈","券商"]A股反攻、降息利好、核心主線(xiàn) 看多看空今日指數(shù)反攻宣告調(diào)整結(jié)束，成交量體現(xiàn)市場(chǎng)活躍。風(fēng)…

09-18

中國(guó)平安回應(yīng)搬離上海傳聞：調(diào)整辦公地是為合規(guī)，撤離說(shuō)法不實(shí)

09-18

海底撈兒童餐部分預(yù)加工引關(guān)注，客服：菜單已標(biāo)注，旨在保品質(zhì)穩(wěn)

09-18

谷歌“搜索”應(yīng)用“探索”頁(yè)升級(jí)，用戶(hù)可關(guān)注出版商創(chuàng)作者獲更多內(nèi)容

09-18

騎行經(jīng)濟(jì)新圖景：從產(chǎn)業(yè)勃發(fā)到文體旅融合的千億賽道崛起

09-18

脈沖星“離家出走”超新星遺跡，于銀河系高空開(kāi)啟獨(dú)特宇宙之旅

09-18

宇宙再掀神秘波瀾！奧陌陌后3I/ATLAS攜塵而來(lái)，新訪(fǎng)客引科學(xué)新期待

09-18

紫金山天文臺(tái)新發(fā)現(xiàn)：大質(zhì)量中子星核心或藏“奇異核”，呈全新物態(tài)

09-18

大質(zhì)量恒星形成謎題有解？科學(xué)家探明氣體吸積全尺度路徑

09-18

宇宙“大戲”上演：黑洞撕碎恒星，吸積盤(pán)發(fā)光揭元素之秘

09-18

超大恒星“謝幕”成宇宙奇跡：Ⅱ型超新星爆發(fā)孕育新恒星希望

09-18

高精度模擬揭秘球狀星團(tuán)起源：不依賴(lài)暗物質(zhì)，新天體或現(xiàn)身

09-18

童年“月亮跟行”的奇妙錯(cuò)覺(jué)，長(zhǎng)大才知是視覺(jué)魔法編織的回憶

09-18

4500年前古埃及日記現(xiàn)世，港口洞穴藏金字塔建造真相

09-18

2025深圳eVTOL展啟幕在即，深謀飛行器攜「星」系列開(kāi)啟低空經(jīng)濟(jì)新征程

09-18

點(diǎn)擊查看更多 +

全站最新

?格力朱磊談玫瑰空調(diào)爭(zhēng)議：眼見(jiàn)為實(shí)，現(xiàn)場(chǎng)觀者皆贊其美，董明珠堅(jiān)持創(chuàng)新?

?2K檔位新機(jī)來(lái)襲！REDMI Turbo 5與一加新系列或首發(fā)中端芯，配置亮點(diǎn)多?

蘋(píng)果低價(jià)版MacBook或搭載iPhone處理器：多彩外觀主打年輕市場(chǎng)

華為HarmonyOS 6取消“NEXT”后綴，全新互聯(lián)智能體驗(yàn)即將開(kāi)啟

蘋(píng)果就iOS 26系統(tǒng)更新后掉電快問(wèn)題回應(yīng)：屬正常，后續(xù)將優(yōu)化續(xù)航體驗(yàn)

小米17系列本月發(fā)布！雷軍直言全面對(duì)標(biāo)iPhone 17，備貨充足顯信心

熱門(mén)內(nèi)容

本欄最新

A股反攻號(hào)角吹響，降息潮下核心主線(xiàn)引領(lǐng)，突破4000點(diǎn)曙光初現(xiàn)

華為李小龍解惑：微博HDR照片顯示難題，HEIC轉(zhuǎn)JPG或鴻蒙NEXT成關(guān)鍵

《行動(dòng)方案》助力新型儲(chǔ)能發(fā)展三年沖刺1億千瓦目標(biāo)引領(lǐng)綠色轉(zhuǎn)型

神州泰岳助力內(nèi)蒙古移動(dòng)：三域融合4A云原生系統(tǒng)創(chuàng)新上線(xiàn)，推進(jìn)多維升級(jí)

上海科學(xué)家首現(xiàn)大質(zhì)量恒星形成“層級(jí)鏈”，解鎖宇宙演化關(guān)鍵密碼

湖南株洲迎來(lái)首個(gè)火箭研發(fā)項(xiàng)目，宇石空間基地開(kāi)工助力航天產(chǎn)業(yè)新發(fā)展

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

阿里通義DeepResearch開(kāi)源來(lái)襲，博士難題輕松解，AI深度研究新典范

日本精品一区二区三区高清久久