日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

SciArena平臺亮相:科研人員親測,大語言模型科學文獻任務表現大比拼

   時間:2025-07-03 11:08:50 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

一個創新性的開放平臺SciArena近期正式啟動,其核心目的在于評估大型語言模型(LLM)在科學文獻處理任務中的實際效能,這一評估依據的是研究人員的真實偏好。平臺運行初期,已明顯觀察到不同模型間存在效能差異。

SciArena由耶魯大學、紐約大學以及艾倫人工智能研究所的專家攜手打造,它專注于系統性地評測專有和開源LLM在科學文獻處理方面的表現,這一領域此前缺乏系統的評估工具。

該平臺采用了不同于傳統基準測試的方法,效仿Chatbot Arena的模式,引入了真實研究人員的直接評估。用戶在提交科學問題后,會收到兩個由模型生成并附有相關引用的詳細答案,然后用戶根據判斷選擇更優的答案。這些引用的文獻均通過專門的ScholarQA檢索流程獲取。

SciArena已積累了來自自然科學、工程學、生命科學和社會科學四大領域102位研究人員的超過13,000份評估數據,涵蓋概念闡述、文獻檢索等多個維度。

在當前的排名中,OpenAI的o3模型獨占鰲頭,領先于Claude-4-Opus和Gemini-2.5-Pro。而在開源模型領域,Deepseek-R1-0528表現突出,甚至超越了部分專有系統。研究團隊特別指出,o3在自然科學和工程科學領域的表現尤為亮眼。研究人員還發現,用戶在評估時更注重引用與陳述的匹配度,而非單純引用數量。答案長度等因素對SciArena的影響相對較小,與Chatbot Arena或Search Arena等平臺有所不同。

盡管取得了顯著進展,但自動化評估仍面臨挑戰。為此,團隊還推出了一項名為SciArena-eval的新基準測試,旨在測試語言模型判斷其他模型答案的能力。然而,即便是表現最佳的模型,也只有約65%的時間與人類偏好一致,這反映出當前LLM在科學領域的評估系統尚存局限。

SciArena平臺現已向公眾開放,其代碼、數據及SciArena-eval基準測試均以開源形式提供,旨在助力開發更符合研究人員在科學信息任務中需求的模型。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 呼伦贝尔市| 蓬安县| 麦盖提县| 泸溪县| 阿拉善盟| 普宁市| 平度市| 莲花县| 枣庄市| 黑水县| 苏尼特左旗| 茂名市| 原平市| 大关县| 锡林郭勒盟| 芮城县| 中牟县| 青铜峡市| 上栗县| 桐庐县| 孟津县| 灯塔市| 阳西县| 满洲里市| 扶沟县| 静海县| 华安县| 泰州市| 凤凰县| 阳泉市| 衡水市| 南昌县| 广西| 图片| 陆良县| 萨嘎县| 绥中县| 盐亭县| 新昌县| 霍州市| 兰溪市|