阿里再次在AI領(lǐng)域投下重磅炸彈——旗下首個(gè)深度研究智能體模型“通義DeepResearch”正式開(kāi)源。該模型不僅在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試中刷新紀(jì)錄,更以30B參數(shù)(激活3B)的輕量化設(shè)計(jì)超越OpenAI、DeepSeek等國(guó)際頂尖團(tuán)隊(duì),成為全球深度研究領(lǐng)域的“新王”。
在被譽(yù)為“人類(lèi)終極考試”的HLE榜單中,通義DeepResearch以32.9%的準(zhǔn)確率登頂榜首,大幅領(lǐng)先DeepSeek-V3.1的29.8%和OpenAI DeepResearch的26.6%。而在OpenAI提出的BrowseComp超高難度測(cè)試中,其43.4%的準(zhǔn)確率同樣領(lǐng)跑開(kāi)源模型。目前,該項(xiàng)目已在GitHub收獲7.2k星標(biāo),Hugging Face和ModelScope平臺(tái)同步開(kāi)放下載。
與傳統(tǒng)AI“一問(wèn)一答”的模式不同,通義DeepResearch構(gòu)建了完整的“研究員”工作流:從問(wèn)題拆解、多源數(shù)據(jù)交叉驗(yàn)證,到結(jié)構(gòu)化歸納和報(bào)告生成,其每一步操作均可追溯、可復(fù)現(xiàn)。例如,當(dāng)用戶(hù)詢(xún)問(wèn)夏威夷珍珠城兩處房產(chǎn)2022年售價(jià)時(shí),模型會(huì)自主調(diào)用聯(lián)網(wǎng)搜索工具,在多個(gè)數(shù)據(jù)源中反復(fù)比對(duì),最終鎖定更貴房產(chǎn)的成交金額。
在法律場(chǎng)景中,這一能力得到更深度驗(yàn)證。面對(duì)“原告退資請(qǐng)求是否違反資本維持原則”的復(fù)雜問(wèn)題,模型不僅檢索法條和判例,還能調(diào)用學(xué)術(shù)文獻(xiàn)工具,綜合分析后給出法律意見(jiàn)。其執(zhí)行過(guò)程被分解為數(shù)十個(gè)可驗(yàn)證的子任務(wù),確保結(jié)論的嚴(yán)謹(jǐn)性。
技術(shù)層面,團(tuán)隊(duì)首創(chuàng)“智能體合成數(shù)據(jù)”體系,通過(guò)構(gòu)建開(kāi)放世界知識(shí)記憶庫(kù),自動(dòng)生成包含規(guī)劃、推理、決策三類(lèi)動(dòng)作的訓(xùn)練數(shù)據(jù)。在后訓(xùn)練階段,全新流程可制造帶“迷霧”的復(fù)雜問(wèn)題——如隱藏關(guān)鍵信息或疊加不確定性,迫使模型探索多步推理路徑。這種“博士級(jí)”難題生成機(jī)制,使模型在跨學(xué)科任務(wù)中表現(xiàn)突出。
為應(yīng)對(duì)長(zhǎng)程任務(wù)挑戰(zhàn),團(tuán)隊(duì)提出雙模式推理架構(gòu):標(biāo)準(zhǔn)任務(wù)采用ReAct模式,通過(guò)128K上下文實(shí)現(xiàn)快速交互;復(fù)雜任務(wù)則切換至Heavy模式,將任務(wù)分解為多輪研究,每輪僅保留精華結(jié)論構(gòu)建新工作空間。這種“迭代-重構(gòu)”機(jī)制有效避免了信息過(guò)載導(dǎo)致的推理能力衰退。
訓(xùn)練流程上,團(tuán)隊(duì)打通“增量預(yù)訓(xùn)練-微調(diào)-強(qiáng)化學(xué)習(xí)”全鏈路,基于GRPO算法優(yōu)化策略梯度,結(jié)合留一法降低估計(jì)方差。為保障數(shù)據(jù)質(zhì)量,其構(gòu)建的仿真訓(xùn)練環(huán)境可離線(xiàn)調(diào)用維基百科和自定義工具,通過(guò)緩存機(jī)制和自動(dòng)數(shù)據(jù)管理形成“生成-訓(xùn)練”閉環(huán)。這種全棧式基礎(chǔ)設(shè)施使模型在強(qiáng)化學(xué)習(xí)階段持續(xù)進(jìn)化,策略熵值保持高位,避免過(guò)早收斂。
實(shí)際應(yīng)用中,該技術(shù)已賦能高德地圖“小高老師”和法律智能體“通義法睿”。前者可處理“西湖邊4.5分以上帶兒童餐、步行1公里內(nèi)可達(dá)的浙菜館”等復(fù)雜需求,生成包含路線(xiàn)規(guī)劃的詳細(xì)方案;后者則通過(guò)迭代式規(guī)劃,在案例引用、法條解析等維度超越國(guó)際競(jìng)品。這些落地案例證明,輕量模型同樣能支撐高復(fù)雜度場(chǎng)景。