阿里旗下人工智能團隊近日宣布,開源深度研究智能體模型通義DeepResearch,引發全球AI領域高度關注。該模型在多項權威基準測試中表現卓越,不僅超越OpenAI等國際頂尖團隊,更以輕量化架構實現高性能突破。
在人類終極考試基準HLE測試中,通義DeepResearch以32.9%的準確率登頂全球榜首,領先第二名DeepSeek-V3.1達3.1個百分點,較OpenAI同類模型高出6.3個百分點。該模型在BrowseComp開源榜單上同樣表現驚艷,43.4%的準確率刷新行業紀錄。值得注意的是,如此強勁的性能僅需30B參數規模,實際激活參數僅3B,開創了輕量化模型實現深度研究的新范式。
研發團隊同步公開了核心技術體系,包括智能體合成數據生成框架和雙模式推理架構。在數據構建層面,創新性地采用AgentFounder方法,通過整合知識圖譜、網頁數據和工具使用軌跡,構建出覆蓋開放世界的記憶庫。后訓練階段開發的WebSailor V2系統,能夠自動生成包含迷霧設置和跨學科難題的高質量數據集,數據質量較人工標注提升顯著。
該模型獨創的ReAct與Heavy雙模式推理機制,有效解決了長程任務中的認知過載問題。Heavy模式通過迭代重構工作空間,將復雜任務分解為多個研究輪次,確保在超長上下文中保持推理質量。實驗數據顯示,采用Research-Synthesis框架的并行研究模式,可使模型在復雜基準上的性能提升12%-15%。
技術實現層面,團隊構建了全棧式強化學習基礎設施。通過離線維基百科和定制工具套件搭建的仿真環境,配合工具沙盒的緩存重試機制,使訓練效率提升3倍以上。基于GRPO算法的優化策略,結合token級損失函數和留一法篩選,成功將策略熵維持在高位,確保模型持續進化能力。
實際應用場景中,該技術已深度賦能高德地圖和法律智能體。在高德V16版本中,集成Deep Research能力的POI推理Agent可精準處理地理區域、交通約束等復雜需求,用戶輸入"西湖邊4.5分以上帶兒童餐的浙菜館,距地鐵站1公里內"等條件時,系統能瞬間生成最優方案。法律領域落地的通義法睿,通過迭代規劃架構實現多步查詢,在案例引用和法條匹配質量上超越國際主流模型。
開源項目上線后迅速引發開發者熱潮,GitHub倉庫已收獲7.2k星標,Hugging Face和ModelScope平臺模型下載量持續攀升。斯坦福NLP實驗室等權威機構第一時間轉發技術報告,稱贊其"重新定義了輕量模型的深度研究邊界"。隨著端到端訓練框架和合成數據體系的全面公開,AI社區正迎來新一輪研究范式變革。