滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

上海AI實驗室創新：借學術講座打造AI研究助手評測新基準

時間：2025-09-24 23:09:00 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

隨著人工智能技術在科研領域的滲透，如何科學評估AI研究助手的能力成為學界關注的核心問題。上海人工智能實驗室聯合清華大學、香港科技大學（廣州）及牛津大學等機構，通過創新性的學術講座場景評測方法，構建了名為DeepResearch Arena的評測體系，為AI研究能力評估提供了全新范式。

傳統評測方式存在明顯缺陷：基于文獻的問題可能被AI提前"記憶"，人工設計題目則面臨覆蓋面不足的困境。研究團隊發現，學術講座中自然產生的開放性問題更能反映真實科研過程。這類場景中，研究者會實時提出未解決的疑問、探討跨學科可能性，這種動態的思維碰撞過程未被納入現有AI訓練數據，有效避免了數據泄露風險。

核心突破在于MAHTG（多智能體分層任務生成）系統的開發。該系統通過四重篩選標準——新穎性、可探索性、挑戰性和可驗證性，從講座轉錄文本中精準提取研究靈感。例如，當教授討論算法處理大規模數據的瓶頸時，系統會將其歸類為"局限性"類型，并生成改進算法的具體任務。這種分類機制確保生成的任務覆蓋文獻綜述、方法設計、實驗評估等完整研究鏈條。

研究團隊收集了12個學科領域的200余場講座錄音，通過MAHTG系統生成超萬個研究任務，構建了迄今最大規模的跨學科評測數據集。在任務生成環節，系統采用Elo評分機制進行質量排序：初始設定1200分基礎值，通過原創性、清晰度等指標的多輪比對，最終篩選出最高質量的評測任務。

評估體系創新性地采用雙維度框架：關鍵點對齊評估（KAE）通過比對AI引用資料與回答內容，計算支持率、沖突率和遺漏率；自適應清單評估（ACE）則針對開放性任務，動態生成包含方法論嚴謹性、技術準確性等維度的評價清單。這種設計既保證了客觀性，又兼顧了研究任務的創造性特征。

實驗結果顯示，主流AI模型在真實研究場景中表現差異顯著。O4-mini深度研究版在主觀評估中獲4.03分，展現較強綜合能力；GPT-4.1雖事實精確性突出，但連貫性不足；Gemini-2.5-flash版本信息覆蓋全面，卻存在效率權衡問題。特別值得注意的是，所有模型在假設生成、跨學科方法設計等高階任務中均暴露明顯短板。

為確保評測公正性，研究團隊設計了嚴格的數據泄露檢測：將任務切割為提示和待續寫部分，通過字符串相似度、TF-IDF余弦相似度及詞匯重疊率的三重驗證，確認所有模型未出現記憶化復現。人工評估對比實驗進一步證明，自動評估系統與專家判斷的Spearman相關系數達0.84，展現出高度一致性。

該研究揭示，當前AI在事實檢索層面已具相當能力，但在創造性思維、跨領域整合等核心科研能力上仍有提升空間。例如Grok-4模型在英語任務中支持率達83.3%，中文任務卻驟降至62.1%，凸顯多語言泛化能力的局限。這種差異化的表現分析，為AI研究助手的優化方向提供了精準指引。

論文提出的評測方法已通過arXiv平臺公開（編號2509.01396v1），其創新價值不僅在于技術實現，更在于構建了接近真實科研環境的評估框架。這種從"靜態試題"到"動態研討"的轉變，或將推動AI從輔助工具向真正研究伙伴的演進。對于科研工作者而言，這意味著未來可能獲得更智能的協作伙伴；對于AI開發者，則明確了算法改進的重點方向。

更多>同類資訊

宇樹科技王興興：人形機器人或年底至明年上半年可實時生成多樣動作

09-24

阿里云AI戰略重磅發布：3800億投入迎ASI時代，十大核心要點解析

09-24

秘塔AI推出「Agentic Search」模式：邊搜邊做，20余種工具讓想法秒變現實

09-24

雷軍明日將迎健身百次打卡與年度演講，小米17系列屏幕亮點搶先看

09-24

?阿里吳泳銘云棲大會發聲：3800億資本開支再加碼，劍指超級人工智能時代?

09-24

阿里吳泳銘云棲發聲：AGI僅是開篇，通往ASI三階段路線及戰略定位揭曉

09-24

Qwen3-Max數學滿分領銜，Qwen3-VL等七大模型齊發，技術革新再升級

09-24

阿里云與英偉達強強聯手，全面集成軟件棧賦能物理AI全流程開發

09-24

周鴻祎：AGI短期難實現且藏風險，多智能體協同才是AI未來方向

09-24

周鴻祎羅永浩對談：AI時代員工管理新思路，360戰略聚焦智能體

09-24

阿里云棲大會重磅發布：7大模型升級，吳泳銘描繪AI未來藍圖

09-24

慧科訊業亮相華為HC大會，攜手華為云共繪企業AI增效發展藍圖

09-24

阿里云與英偉達2025云棲大會“牽手”，共拓Physical AI領域新機遇

09-24

阿里All in AI后首份答卷亮相：大模型與基礎設施雙突破，資本市場點贊

09-24

阿里云棲大會重磅發布：3800億AI基建計劃，市值一日飆升近3000億

09-24

點擊查看更多 +

全站最新

限量50臺！梅賽德斯-邁巴赫V12 Edition官圖亮相，24K金徽標配手工定制盡顯奢華

賓利純電動SUV諜照來襲，2026年發布，定位添越之下引期待

2026款沃爾沃EX90官圖亮相：800V架構加持，雙Orin芯片助力智能駕駛升級

東風日產新款天籟四季度上市，16-18萬起售，鴻蒙座艙+2.0T引擎成亮點

?Jeep大指揮官Trail Edition官圖亮相七座布局+2.0T柴油動力限量150臺僅售日本市場?

蘭博基尼汽車攜手意大利海洋集團全新Tecnomar 101FT游艇詮釋海洋奢華新境

熱門內容

本欄最新

第22屆東博會AI元素亮眼：數字智能體引路機器人炫技展風采

AI云競爭下半場：華為以超節點、企業Agent等破局，誰能領跑產業？

2025網安周：每日互動劉宇談AI時代，知識安全成關鍵，共筑數字新未來

中國大模型DeepSeek首登Nature封面，R1訓練成本僅約208萬引關注

華為全聯接大會2025啟幕，發布全球最強算力超節點與集群

有鹿機器人+連合直租：以智能租賃模式，開啟高端場景清潔新未來

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

上海AI實驗室創新：借學術講座打造AI研究助手評測新基準

日本精品一区二区三区高清久久