人工智能領域正經歷從基礎問答工具向深度研究伙伴的轉型,這一趨勢在最新研究中得到系統驗證。由多所高校與科技企業聯合開展的評估項目,通過建立三維評分體系,對當前主流的DeepResearch系統展開全面測評,為智能研究工具的能力邊界劃定了新坐標。
研究團隊開發的評估框架包含質量、冗余度、事實準確性三大核心維度。質量評估細分為全面性、連貫性、清晰度、洞察力四項指標,通過分解研究報告的邏輯結構與信息密度進行量化分析;冗余度檢測采用段落交叉比對技術,精準識別重復內容;事實準確性則通過證據鏈比對系統,將每個結論與原始資料進行交叉驗證。這種標準化流程使AI評分與人類專家的一致性達到61.11%,形成可復制的評估范式。
在針對OpenAI、Perplexity、Gemini、Qwen四款系統的對比測試中,各平臺展現出差異化發展路徑。Qwen系統以5467字的適中篇幅實現最優平衡,在全面性(3.80分)、洞察力(3.38分)等關鍵指標領先,且69%的結論獲得證據支持。OpenAI系統憑借6900字的長篇報告展現均衡實力,尤其在信息整合能力上獲得認可。Perplexity系統則以1245字的精簡報告形成獨特優勢,在結構清晰度(3.60分)和冗余控制(3.71分)方面表現突出。Gemini系統雖以9200字的最長報告覆蓋最多信息點,但綜合質量得分受篇幅影響有所下降。
測試數據揭示了研究型AI的深層發展規律。報告長度與質量并非線性相關,5000-7000字區間呈現最佳性價比。用戶查詢特征分析顯示,科技(37.3%)和商業經濟(17.2%)領域對系統性研究需求最為迫切,典型問題如"固態鋰電池產業化路徑"等,要求AI具備跨領域信息整合能力。這種需求轉變倒逼技術升級,傳統搜索模式正從"精準答案提供"轉向"多維度證據收集"。
當前系統仍面臨三大技術瓶頸。首先是需求解析能力不足,用戶模糊查詢與系統理解之間存在鴻溝,優秀系統的澄清提問質量與最終報告得分呈強正相關。其次是搜索策略滯后,研究場景需要系統自主識別信息可信度、觀點多樣性,而非簡單匹配關鍵詞。最后是評估維度單一,現有方法側重最終成果,難以追蹤信息收集、分析推理等中間過程。
研究團隊公開的100個標準測試問題集已引發行業關注。這套涵蓋12個領域的復雜查詢,配合開源的評估代碼庫,為技術迭代提供了基準平臺。實驗數據顯示,系統在事實核查環節仍有提升空間,平均僅69%的結論獲得證據支持,完全支持率更低至55%,這提示未來需加強證據鏈構建能力。
在應用場景拓展方面,研究指出智能研究助手正突破傳統文檔生成范疇。領先系統已具備初步的主動學習能力,可根據用戶興趣持續追蹤領域動態,部分平臺開始嘗試為信息標注可信度等級。這種進化方向預示著AI將從被動響應轉向協同研究,在學術探索、商業決策等場景發揮更大價值。
該成果論文編號arXiv:2510.07861v1已在學術數據庫開放獲取,配套的代碼與數據集同步上線GitHub平臺。這種開放研究模式正推動行業形成共識,多家機構已宣布將采用該評估框架測試新系統,標志著DeepResearch領域進入標準化發展新階段。











