阿里巴巴今日宣布,正式開源其首個深度研究智能體模型——通義DeepResearch。該模型在多個權威智能體評測基準中表現優異,以30億激活參數的輕量化設計,超越了基于OpenAI o3、DeepSeek V3.1及Claude-4-Sonnet等旗艦模型構建的ReAct智能體。
在Humanity’s Last Exam(HLE)、BrowseComp系列、GAIA、xbench-deepsearch、WebWalkerQA及frames等七大國際評測中,通義DeepResearch展現出顯著優勢。其核心突破在于解決了傳統"單窗口線性處理"模式在長周期任務中面臨的"認知空間過載"和"噪聲累積"問題,有效提升了復雜研究場景下的推理穩定性。
技術實現層面,研究團隊以Qwen3-30B-A3B模型為基座,構建了覆蓋預訓練與后訓練的完整合成數據訓練鏈路。該方案創新性地整合了異步強化學習算法與自動化數據策展流程,通過真實環境與虛擬環境的雙重驗證模塊,顯著提升了模型迭代效率。特別設計的RL算法框架支持多維度能力優化,使模型在保持輕量化的同時具備更強的泛化能力。
在推理機制方面,模型提供ReAct與Heavy雙模式選擇。ReAct模式側重基礎能力驗證,確保模型核心推理的準確性;Heavy模式則通過動態擴展的test-time scaling策略,在處理復雜長任務時自動激活性能上限,實現推理質量與效率的平衡。這種雙軌制設計使模型既能應對常規任務,也可處理需要深度分析的復雜場景。
目前,該模型的完整代碼、訓練框架及部署方案已在GitHub、Hugging Face及魔搭社區同步開源。開發者可通過以下地址獲取資源:
GitHub:https://github.com/Alibaba-NLP/DeepResearch
Hugging Face:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
魔搭社區:https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
此次開源是阿里巴巴在智能體領域的又一重要布局。此前,該團隊已陸續推出WebWalker、WebDancer和WebSailor等檢索推理模型,均在開源社區取得領先成績。通義DeepResearch的發布,不僅為深度研究賽道提供了輕量化高性能的解決方案,更為全球開發者攻克復雜研究任務提供了關鍵技術支撐。