在人工智能領域,一項新的突破正引發廣泛關注。阿里巴巴旗下的通義實驗室宣布,其自主研發的網絡智能體WebSailor已在開源網絡智能體榜單上登頂,超越了包括DeepSeek R1和Grok-3在內的多個知名模型和智能體。
WebSailor之所以備受矚目,是因為它具備出色的推理和檢索能力。面對高度復雜和線索模糊的任務,WebSailor能夠主動在互聯網中搜集信息,并通過多步推理和交叉驗證,將分散的線索串聯起來,從而得出準確的答案。這一能力在業界備受認可,尤其是在OpenAI發布的BrowseComp評測集上,WebSailor更是展現出了卓越的性能。
BrowseComp評測集包含了1266個高難度問題,旨在評測大模型和智能體的檢索性能。這些問題不僅涉及的信息廣泛且復雜,而且要求AI能夠在海量的互聯網內容中迅速定位并提取出關鍵信息。然而,盡管業界對此進行了大量的研究,但在此前數月內,尚無開源系統能夠取得接近閉源模型的成績。而WebSailor的出現,打破了這一僵局。
為了構建WebSailor,通義實驗室付出了巨大的努力。他們首先合成了大量具有高度不確定性的復雜任務數據SailorFog-QA,并基于Qwen模型進行冷啟動微調,讓模型能夠學習到超越人類的復雜推理模式。他們還提出了一種高效的強化學習算法DUPO,該算法基于雙階段動態采樣策略,大幅提高了訓練效率,使得WebSailor即使在密集工具交互的情境中也能快速迭代。
在BrowseComp評測集的實測中,WebSailor的表現令人矚目。無論是WebSailor-32B還是WebSailor-72B,都在開源模型和智能體陣營中實現了斷層領先,甚至超越了部分閉源模型,僅次于閉源的OpenAI DeepResearch。這一成績不僅證明了WebSailor的卓越性能,也展示了通義實驗室在人工智能領域的深厚實力。
WebSailor不僅在高難度任務上表現出色,在普通任務上的表現也同樣卓越。在SimpleQA數據集上,WebSailor的表現超越了其他方法,展現出了極強的兼容性和有效性。這一結果進一步驗證了WebSailor方法的泛化能力,也為其在未來的廣泛應用奠定了堅實的基礎。
今年以來,通義實驗室已經開源了WebWalker、WebDancer和WebSailor三個檢索和推理智能體,并且這三個智能體都取得了SOTA(State-of-the-Art)的成績。這一系列的成果不僅展示了通義實驗室在人工智能領域的創新能力,也為整個行業的發展注入了新的活力。