隨著人工智能技術在科研領域的滲透,如何科學評估AI研究助手的能力成為學界關注的核心問題。上海人工智能實驗室聯合清華大學、香港科技大學(廣州)及牛津大學等機構,通過創新性的學術講座場景評測方法,構建了名為DeepResearch Arena的評測體系,為AI研究能力評估提供了全新范式。
傳統評測方式存在明顯缺陷:基于文獻的問題可能被AI提前"記憶",人工設計題目則面臨覆蓋面不足的困境。研究團隊發現,學術講座中自然產生的開放性問題更能反映真實科研過程。這類場景中,研究者會實時提出未解決的疑問、探討跨學科可能性,這種動態的思維碰撞過程未被納入現有AI訓練數據,有效避免了數據泄露風險。
核心突破在于MAHTG(多智能體分層任務生成)系統的開發。該系統通過四重篩選標準——新穎性、可探索性、挑戰性和可驗證性,從講座轉錄文本中精準提取研究靈感。例如,當教授討論算法處理大規模數據的瓶頸時,系統會將其歸類為"局限性"類型,并生成改進算法的具體任務。這種分類機制確保生成的任務覆蓋文獻綜述、方法設計、實驗評估等完整研究鏈條。
研究團隊收集了12個學科領域的200余場講座錄音,通過MAHTG系統生成超萬個研究任務,構建了迄今最大規模的跨學科評測數據集。在任務生成環節,系統采用Elo評分機制進行質量排序:初始設定1200分基礎值,通過原創性、清晰度等指標的多輪比對,最終篩選出最高質量的評測任務。
評估體系創新性地采用雙維度框架:關鍵點對齊評估(KAE)通過比對AI引用資料與回答內容,計算支持率、沖突率和遺漏率;自適應清單評估(ACE)則針對開放性任務,動態生成包含方法論嚴謹性、技術準確性等維度的評價清單。這種設計既保證了客觀性,又兼顧了研究任務的創造性特征。
實驗結果顯示,主流AI模型在真實研究場景中表現差異顯著。O4-mini深度研究版在主觀評估中獲4.03分,展現較強綜合能力;GPT-4.1雖事實精確性突出,但連貫性不足;Gemini-2.5-flash版本信息覆蓋全面,卻存在效率權衡問題。特別值得注意的是,所有模型在假設生成、跨學科方法設計等高階任務中均暴露明顯短板。
為確保評測公正性,研究團隊設計了嚴格的數據泄露檢測:將任務切割為提示和待續寫部分,通過字符串相似度、TF-IDF余弦相似度及詞匯重疊率的三重驗證,確認所有模型未出現記憶化復現。人工評估對比實驗進一步證明,自動評估系統與專家判斷的Spearman相關系數達0.84,展現出高度一致性。
該研究揭示,當前AI在事實檢索層面已具相當能力,但在創造性思維、跨領域整合等核心科研能力上仍有提升空間。例如Grok-4模型在英語任務中支持率達83.3%,中文任務卻驟降至62.1%,凸顯多語言泛化能力的局限。這種差異化的表現分析,為AI研究助手的優化方向提供了精準指引。
論文提出的評測方法已通過arXiv平臺公開(編號2509.01396v1),其創新價值不僅在于技術實現,更在于構建了接近真實科研環境的評估框架。這種從"靜態試題"到"動態研討"的轉變,或將推動AI從輔助工具向真正研究伙伴的演進。對于科研工作者而言,這意味著未來可能獲得更智能的協作伙伴;對于AI開發者,則明確了算法改進的重點方向。