阿里云宣布,旗下首款深度研究智能體模型——通義DeepResearch正式開源,引發全球AI領域高度關注。該模型憑借300億參數規模(激活30億)在多個權威基準測試中打破紀錄,不僅超越DeepSeek-V3.1和OpenAI同類模型,更以全球第一的成績登頂HLE榜單。
在被稱為"AI終極考試"的HLE測試中,通義DeepResearch取得32.9%的領先得分,較第二名DeepSeek-V3.1高出3.1個百分點。在OpenAI提出的BrowseComp復雜任務榜單上,該模型以43.4%的準確率成為開源領域領跑者。開發者現已可通過Hugging Face、GitHub和ModelScope平臺獲取完整模型,GitHub項目上線首周即獲7200顆星標。
與傳統問答AI不同,通義DeepResearch突破"一問一答"模式,構建了完整的自主研究體系。面對復雜問題時,模型會規劃深度搜索、多源交叉驗證、結構化歸納、報告生成的全流程研究路徑。以夏威夷房產查詢為例,系統能自動識別地理信息,聯網檢索2022年房產交易記錄,在多個數據源間交叉驗證后,準確返回Akaikai Loop 2072號房產的成交金額。
技術團隊創新性構建了"智能體合成數據"體系,通過AgentFounder框架實現訓練數據自動化生成。在預訓練階段,系統將知識文檔、網頁數據、學術圖譜等構建為開放世界記憶庫,自動生成包含規劃、推理、決策三類動作的百萬級訓練樣本。后訓練階段采用的WebSailor V2方案,通過隨機游走、信息隱藏等技術,生成難度可控的跨學科研究任務。
針對長程復雜任務,模型獨創的Heavy Mode推理架構將研究過程分解為多個迭代輪次。每輪僅保留關鍵結論構建新工作空間,通過Research-Synthesis框架整合多智能體研究結果。這種設計使模型在處理星座數學模型等跨學科難題時,能自主調用Python解釋器、谷歌學術等工具,完成從理論推導到實證驗證的全過程。
訓練體系方面,團隊打通Agentic CPT增量預訓練、SFT微調、Agentic RL強化學習的全鏈路?;贕RPO算法優化的強化學習框架,結合128K超長上下文窗口,使模型在BrowseComp測試中持續進化。全棧式訓練基礎設施包含離線維基百科模擬環境、工具沙盒交互機制、自動數據管理系統,確保訓練穩定性。
實際應用層面,該技術已深度融入高德地圖導航系統。在西湖周邊餐飲查詢場景中,模型能同時處理地理區域、評分、兒童餐、步行距離等五維約束條件,三秒內給出最優解。法律領域落地的"通義法睿"智能體,可執行多步法律檢索,依托真實判例提供可追溯分析,在答案質量、案例引用、法條準確性三個維度超越國際主流模型。