近日,阿里通義宣布了一項(xiàng)重大進(jìn)展,其自主研發(fā)的網(wǎng)絡(luò)智能體WebSailor成功問(wèn)鼎開(kāi)源網(wǎng)絡(luò)智能體評(píng)測(cè)榜單。這款智能體憑借卓越的推理與檢索能力,在BrowseComp這一高難度評(píng)測(cè)集中,力壓DeepSeek R1、Grok-3等知名模型與智能體,展現(xiàn)了其強(qiáng)大的實(shí)力。
據(jù)了解,WebSailor的構(gòu)建方案及部分?jǐn)?shù)據(jù)集已在Github平臺(tái)實(shí)現(xiàn)開(kāi)源,為行業(yè)內(nèi)的開(kāi)發(fā)者與研究人員提供了寶貴的資源與參考。為了提升WebSailor對(duì)復(fù)雜網(wǎng)頁(yè)信息的處理能力,通義團(tuán)隊(duì)采取了一套創(chuàng)新的訓(xùn)練方法,這套方法包含三大核心模塊。
首先,“SailorFog-QA”模塊被形象地稱為“地獄級(jí)試煉場(chǎng)”。它通過(guò)模擬真實(shí)網(wǎng)頁(yè)環(huán)境,構(gòu)建復(fù)雜的信息圖譜,并故意制造信息混淆,迫使模型跨越多個(gè)頁(yè)面整合線索,以此來(lái)挑戰(zhàn)并提升模型的認(rèn)知極限。其次,“重構(gòu)推理邏輯”模塊則專注于優(yōu)化模型的思考方式。通過(guò)摒棄冗長(zhǎng)且重復(fù)的推理鏈,模型學(xué)會(huì)了更加簡(jiǎn)潔、直擊重點(diǎn)的思考策略,從而顯著提升了其思維的靈活性。
“強(qiáng)化學(xué)習(xí)DUPO算法”模塊也是WebSailor成功的關(guān)鍵之一。該算法通過(guò)動(dòng)態(tài)篩選高質(zhì)量的訓(xùn)練樣本,有效提高了模型的訓(xùn)練效率,使其相比傳統(tǒng)方法提升了2至3倍。在權(quán)威評(píng)測(cè)平臺(tái)BrowseComp的英文與中文榜單中,WebSailor均取得了優(yōu)異的成績(jī)。其中,WebSailor-72B在開(kāi)源榜上獨(dú)占鰲頭,中文榜單中與豆包(Doubao-Search)不相伯仲,英文榜單更是超越了Grok-3等閉源模型。
WebSailor不僅在復(fù)雜任務(wù)中表現(xiàn)出色,在相對(duì)簡(jiǎn)單的任務(wù)如SimpleQA中同樣展現(xiàn)出了卓越的性能。這一全面的能力表現(xiàn),無(wú)疑為其在未來(lái)的廣泛應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。