人工智能領域迎來重要突破,通義DeepResearch正式開源發布,標志著AI研究能力從“對話交互”向“深度探索”的跨越式發展。該模型在Humanity's Last Exam、BrowseComp、GAIA等國際權威深度研究基準測試中均取得最優成績,綜合性能與海外旗艦模型持平甚至超越,同時以完全開源的方式提供模型、框架及解決方案。
針對海外閉源模型使用成本高、調用受限等問題,研發團隊通過創新技術路徑實現突破。30B參數規模的tongyi DeepResearch在保持輕量化的同時,通過多階段數據策略和強化學習優化,在復雜推理任務中展現出顯著優勢。其核心技術覆蓋數據合成、增量預訓練、有監督微調及強化學習全流程,形成端到端的智能體訓練范式。
數據構建方面,團隊開發出全自動化合成方案。通過知識圖譜隨機游走、表格數據融合等技術,從真實網站提取結構化信息,并設計“原子操作”系統提升問題復雜度。特別在決策動作合成中,將多步驟軌跡重構為決策過程,有效增強模型規劃能力。該方案生成的“博士級”研究問題,可模擬多學科交叉推理場景,推動模型能力逼近人類專家水平。
模型架構創新包含雙重推理模式:標準ReAct模式支持128K長上下文交互,通過“思考-行動-觀察”循環處理常規任務;深度模式(Heavy Mode)則采用IterResearch范式,將復雜任務分解為多個研究輪次。每輪僅保留關鍵信息構建精簡工作空間,通過“綜合與重構”迭代保持認知焦點,避免傳統方法中的信息過載問題。團隊還提出Research-Synthesis框架,允許多智能體并行探索后整合結論,顯著提升答案準確性。
訓練體系實現全鏈路革新,從Agentic持續預訓練(CPT)到拒絕微調(RFT)再到強化學習(RL),形成閉環優化系統。在RL階段,團隊基于GRPO算法進行定制優化,采用on-policy訓練范式確保學習信號與模型能力精準匹配。通過token級策略梯度損失、留一法優勢估計等技術,有效降低訓練方差。針對負樣本干擾問題,開發選擇性過濾機制,結合大批量訓練維持監督信號穩定性。
基礎設施層面構建三大支撐系統:仿真訓練環境利用離線維基百科和自定義工具套件,降低對實時Web API的依賴;穩定工具沙盒通過緩存、重試和飽和響應機制,確保工具調用的可靠性;自動數據管理系統實現訓練動態指導下的實時優化,形成數據生成與模型訓練的正向循環。異步強化學習框架支持多智能體并行交互,顯著提升訓練效率。
技術落地已產生實際價值。與高德合作的出行智能體“高德小德”,在地圖導航和本地生活場景中實現復雜查詢的垂類應用,成為高德V16版本的核心功能。法律領域推出的“通義法睿”智能體,集成案例檢索、合同審查、文書起草等功能,通過迭代規劃技術實現多步推理,在答案質量、案例引用、法條匹配等維度達到行業領先水平。
研發團隊同步發布六篇技術報告,詳細闡述數據合成策略、強化學習優化、多智能體協作等關鍵技術。開源社區已上線30B參數規模的tongyi DeepResearch模型,配套提供框架代碼和訓練方案。此前半年間,團隊保持每月發布技術報告的節奏,持續推動深度研究智能體領域的技術演進。