阿里云旗下通義團隊近日宣布,其自主研發的深度研究智能體模型DeepResearch正式面向全球開發者開源。該模型憑借300億參數規模(激活30億參數)在多項權威基準測試中刷新紀錄,不僅超越DeepSeek-V3.1和OpenAI同類模型,更在被稱為"人類終極考試"的HLE榜單中以32.9%的準確率登頂全球榜首。
在OpenAI提出的BrowseComp復雜網頁任務基準測試中,該模型以43.4%的準確率領跑開源社區。開發者現已可通過Hugging Face、GitHub及ModelScope平臺獲取完整模型代碼與訓練框架,GitHub項目上線首周即收獲7200顆星標,引發全球AI研究者熱議。Hugging Face聯合創始人克萊姆·德朗熱親自轉發項目鏈接,斯坦福大學NLP實驗室等權威機構也跟進關注。
與傳統問答式AI不同,DeepResearch構建了完整的研究工作流。面對夏威夷珍珠城房產交易查詢等復雜需求時,模型會自動拆解為"聯網檢索-多源驗證-結構化分析-報告生成"四步流程。在處理法律糾紛咨詢時,模型通過調用法條數據庫、司法判例庫和學術文獻庫,完成從問題解析到證據鏈構建的全過程,最終生成可追溯的研究報告。
技術實現層面,研究團隊創新性地提出"智能體合成數據"訓練體系。通過構建包含200億實體的開放世界知識庫,模擬生成數千萬組規劃-推理-決策動作數據。在后訓練階段開發的WebSailor V2框架,能夠自動生成包含信息隱藏、噪聲注入的復雜問題集,有效防止模型學習路徑捷徑。這種數據生成方式使合成數據質量超越人工標注,訓練效率提升300%。
針對長程研究任務,團隊開發了雙重推理模式。標準任務采用ReAct(思考-行動-觀察)循環機制,支持128K上下文窗口的多輪交互。面對跨學科數學建模等復雜任務時,模型自動切換至Heavy Mode深度模式,通過"信息精煉-報告迭代-決策優化"的循環機制,將任務分解為多個研究輪次。這種架構使模型在BrowseComp-ZH中文基準測試中準確率提升27%。
在強化學習訓練環節,研究團隊構建了全棧式基礎設施。通過離線維基百科和自定義工具套件搭建的仿真環境,使訓練成本降低80%。工具沙盒機制通過緩存響應、失敗重試等技術,確保智能體訓練穩定性?;趓LLM的異步框架支持千級智能體并行訓練,數據管理模塊實現訓練數據與模型性能的動態優化閉環。
實際應用層面,該技術已深度融入高德地圖導航系統。在杭州西湖景區POI推薦場景中,模型可同時處理地理位置、用戶評價、交通條件等12維約束參數,3秒內生成包含路線規劃、餐飲推薦的完整方案。法律領域落地的"通義法睿"智能體,通過迭代式規劃架構實現多步法律推理,在案例引用準確率、法條適配度等指標上超越主流商業模型。