當(dāng)普通AI助手還在為用戶提供簡單信息時,一個名為Fathom-DeepResearch的新型AI系統(tǒng)已展現(xiàn)出深度調(diào)查能力。這項由研究團(tuán)隊開發(fā)的技術(shù)突破,讓AI能夠像專業(yè)偵探般進(jìn)行多輪信息挖掘,最終形成結(jié)構(gòu)化的深度研究報告。該系統(tǒng)通過兩個協(xié)同工作的模型,解決了傳統(tǒng)AI在處理復(fù)雜問題時的三大痛點:淺嘗輒止的搜索、重復(fù)無效的提問以及缺乏深度的分析。
研究團(tuán)隊設(shè)計的Fathom-Search-4B模型,專門負(fù)責(zé)網(wǎng)絡(luò)世界的深度探索。與傳統(tǒng)AI不同,它不會在找到幾條表面信息后就停止搜索,而是能夠進(jìn)行20多輪的持續(xù)調(diào)查。這個模型通過特殊訓(xùn)練方法,學(xué)會了何時深入挖掘、何時轉(zhuǎn)換角度、何時交叉驗證信息。研究顯示,在WebWalker測試中,該模型達(dá)到了50%的準(zhǔn)確率,遠(yuǎn)超大多數(shù)現(xiàn)有系統(tǒng)20%以下的水平。
要訓(xùn)練出這樣具備深度調(diào)查能力的AI,研究團(tuán)隊開發(fā)了創(chuàng)新的技術(shù)方案。他們創(chuàng)建了包含約5000個問題的DUETQA數(shù)據(jù)集,每個問題都需要通過實時網(wǎng)絡(luò)搜索才能解答。更巧妙的是,研究團(tuán)隊采用多智能體自我對弈的方法生成訓(xùn)練數(shù)據(jù):一個模型負(fù)責(zé)設(shè)計復(fù)雜問題,另一個模型嘗試解決這些問題。這種方法確保每個訓(xùn)練案例都必須依賴最新網(wǎng)絡(luò)信息,無法通過AI的固有知識解決。
在訓(xùn)練過程中,研究團(tuán)隊設(shè)置了三重保險機(jī)制來保證數(shù)據(jù)質(zhì)量。兩個具備搜索能力的AI模型必須都能通過網(wǎng)絡(luò)找到正確答案,而第三個沒有搜索能力的模型則必須失敗。這種驗證方式就像讓不同偵探獨(dú)立調(diào)查同一個案件,只有當(dāng)有搜索能力的偵探都能破案,而沒有搜索能力的偵探無法破案時,這個案例才會被納入訓(xùn)練集。
針對多輪對話訓(xùn)練的技術(shù)難題,研究團(tuán)隊開發(fā)了RAPO訓(xùn)練方法。這種方法通過三重安全網(wǎng)機(jī)制穩(wěn)定訓(xùn)練過程:課程剪枝機(jī)制讓AI在掌握某些問題后暫時移除這類問題,專注于更困難的任務(wù);優(yōu)勢縮放機(jī)制自動放大有效學(xué)習(xí)信號的重要性,確保AI能從稀少反饋中學(xué)習(xí);回放緩沖機(jī)制保存成功解答案例,在AI完全失敗時提供安全路線圖。這些創(chuàng)新解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)在處理長序列任務(wù)時的"梯度崩潰"問題。
在frameS測試中,系統(tǒng)達(dá)到了64.8%的準(zhǔn)確率,顯著超越其他開源競爭者。更令人驚喜的是,這種深度搜索能力的訓(xùn)練不僅提升了搜索任務(wù)表現(xiàn),還增強(qiáng)了AI在其他類型推理任務(wù)上的能力。在數(shù)學(xué)推理、科學(xué)問答和醫(yī)學(xué)知識測試中,系統(tǒng)都展現(xiàn)出令人滿意的水平,證明了深度搜索訓(xùn)練對整體智能水平的提升作用。
研究團(tuán)隊開發(fā)的認(rèn)知行為分類系統(tǒng),能夠?qū)崟r分析AI的每個搜索動作屬于哪種認(rèn)知行為。這個獎勵機(jī)制就像經(jīng)驗豐富的導(dǎo)師,當(dāng)AI進(jìn)行有價值探索時給予積極獎勵,當(dāng)AI陷入重復(fù)勞動時給予負(fù)面反饋,當(dāng)AI找到正確答案但過程冗余時,則在獎勵正確性的同時懲罰低效行為。研究人員可以通過調(diào)整參數(shù)控制AI的行為傾向,使其適應(yīng)不同類型的調(diào)查任務(wù)。
在實際應(yīng)用中,這套系統(tǒng)展現(xiàn)出廣泛潛力。商業(yè)領(lǐng)域可用其進(jìn)行市場研究和競爭分析,學(xué)術(shù)研究可借助其快速收集整理文獻(xiàn),新聞媒體可依賴其高效收集驗證信息,法律行業(yè)可利用其進(jìn)行案例研究和法條分析。對于普通用戶,這意味著將擁有一個真正智能的個人研究助理,在購買決策、學(xué)習(xí)新知識或了解復(fù)雜議題時,都能獲得深入全面的信息支持。
盡管取得顯著成果,研究團(tuán)隊也指出系統(tǒng)存在的局限性。在面對超出訓(xùn)練范圍的極端復(fù)雜問題時,系統(tǒng)性能提升有限。目前的訓(xùn)練方法依賴同步訓(xùn)練流程,大規(guī)模應(yīng)用時可能面臨效率瓶頸。系統(tǒng)的安全性和可控性仍需改進(jìn),特別是在面對惡意使用或極端情況時,如何確保系統(tǒng)安全運(yùn)行是需要持續(xù)關(guān)注的問題。
這個能夠進(jìn)行深度網(wǎng)絡(luò)搜索和信息綜合的AI系統(tǒng),代表了AI助手發(fā)展的重要方向。它不再滿足于提供簡單問答服務(wù),而是成為真正的智能研究伙伴。通過解決訓(xùn)練數(shù)據(jù)生成、多輪對話穩(wěn)定和精確行為控制等技術(shù)難題,這項研究為AI的全面發(fā)展貢獻(xiàn)了有價值的方法和工具,展示了AI作為知識探索者和創(chuàng)造者的新可能性。











