一個創新性的開放平臺SciArena近期正式啟動,其核心目的在于評估大型語言模型(LLM)在科學文獻處理任務中的實際效能,這一評估依據的是研究人員的真實偏好。平臺運行初期,已明顯觀察到不同模型間存在效能差異。
SciArena由耶魯大學、紐約大學以及艾倫人工智能研究所的專家攜手打造,它專注于系統性地評測專有和開源LLM在科學文獻處理方面的表現,這一領域此前缺乏系統的評估工具。
該平臺采用了不同于傳統基準測試的方法,效仿Chatbot Arena的模式,引入了真實研究人員的直接評估。用戶在提交科學問題后,會收到兩個由模型生成并附有相關引用的詳細答案,然后用戶根據判斷選擇更優的答案。這些引用的文獻均通過專門的ScholarQA檢索流程獲取。
SciArena已積累了來自自然科學、工程學、生命科學和社會科學四大領域102位研究人員的超過13,000份評估數據,涵蓋概念闡述、文獻檢索等多個維度。
在當前的排名中,OpenAI的o3模型獨占鰲頭,領先于Claude-4-Opus和Gemini-2.5-Pro。而在開源模型領域,Deepseek-R1-0528表現突出,甚至超越了部分專有系統。研究團隊特別指出,o3在自然科學和工程科學領域的表現尤為亮眼。研究人員還發現,用戶在評估時更注重引用與陳述的匹配度,而非單純引用數量。答案長度等因素對SciArena的影響相對較小,與Chatbot Arena或Search Arena等平臺有所不同。
盡管取得了顯著進展,但自動化評估仍面臨挑戰。為此,團隊還推出了一項名為SciArena-eval的新基準測試,旨在測試語言模型判斷其他模型答案的能力。然而,即便是表現最佳的模型,也只有約65%的時間與人類偏好一致,這反映出當前LLM在科學領域的評估系統尚存局限。
SciArena平臺現已向公眾開放,其代碼、數據及SciArena-eval基準測試均以開源形式提供,旨在助力開發更符合研究人員在科學信息任務中需求的模型。