日本精品一区二区三区高清久久

<li id="66gie"></li>

ITBear科技資訊
手機版
二維碼
內容搜索
無障礙通道
語言：中文 EN

ITBear旗下自媒體矩陣：

滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

SciArena平臺亮相：科研人員親測，大語言模型科學文獻任務表現大比拼

時間：2025-07-03 11:08:50 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

一個創新性的開放平臺SciArena近期正式啟動，其核心目的在于評估大型語言模型（LLM）在科學文獻處理任務中的實際效能，這一評估依據的是研究人員的真實偏好。平臺運行初期，已明顯觀察到不同模型間存在效能差異。

SciArena由耶魯大學、紐約大學以及艾倫人工智能研究所的專家攜手打造，它專注于系統性地評測專有和開源LLM在科學文獻處理方面的表現，這一領域此前缺乏系統的評估工具。

該平臺采用了不同于傳統基準測試的方法，效仿Chatbot Arena的模式，引入了真實研究人員的直接評估。用戶在提交科學問題后，會收到兩個由模型生成并附有相關引用的詳細答案，然后用戶根據判斷選擇更優的答案。這些引用的文獻均通過專門的ScholarQA檢索流程獲取。

SciArena已積累了來自自然科學、工程學、生命科學和社會科學四大領域102位研究人員的超過13,000份評估數據，涵蓋概念闡述、文獻檢索等多個維度。

在當前的排名中，OpenAI的o3模型獨占鰲頭，領先于Claude-4-Opus和Gemini-2.5-Pro。而在開源模型領域，Deepseek-R1-0528表現突出，甚至超越了部分專有系統。研究團隊特別指出，o3在自然科學和工程科學領域的表現尤為亮眼。研究人員還發現，用戶在評估時更注重引用與陳述的匹配度，而非單純引用數量。答案長度等因素對SciArena的影響相對較小，與Chatbot Arena或Search Arena等平臺有所不同。

盡管取得了顯著進展，但自動化評估仍面臨挑戰。為此，團隊還推出了一項名為SciArena-eval的新基準測試，旨在測試語言模型判斷其他模型答案的能力。然而，即便是表現最佳的模型，也只有約65%的時間與人類偏好一致，這反映出當前LLM在科學領域的評估系統尚存局限。

SciArena平臺現已向公眾開放，其代碼、數據及SciArena-eval基準測試均以開源形式提供，旨在助力開發更符合研究人員在科學信息任務中需求的模型。

舉報 0 收藏 0 打賞 0評論 0

07-03

榮耀總裁方飛：蘋果入局折疊屏，是激勵也是新起點

07-03

OpenAI堅持英偉達與AMD，暫不全面采用谷歌TPU芯片

07-03

Crunchyroll新動畫字幕出錯，疑似AI生成引熱議，觀眾呼吁保證創作質量

07-03

三星Galaxy Z Fold新機：7月9日震撼發布，16GB+1TB高配來襲

現在的手游和應用不斷升級，對配置的要求越來越高，所以不少品牌推出自研芯片、性能引擎、算法等方面，進一步優化性能，提升新機體驗。新機也被官方稱為三星超輕薄折疊旗艦，看來今年的新折疊屏不斷追求輕薄，甚至是與直板機…

07-03

榮耀Magic V5震撼發布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊芯片

榮耀Magic V5采用全新AI交互方式，以更輕薄的折疊旗艦形態與行業領先的AI智能體實力，釋放PC級生產力，開啟智能交互體驗的全新想象，用科技拓寬一小時的生命寬度，帶來一輩子的溫暖陪伴。榮耀正式宣布支持MC…

07-03

中國移動新動作：九天人工智能科技公司成立，注冊資本高達20億

07-03

榮耀Magic V5震撼發布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊版

07-03

榮耀Magic V5深度評測：輕薄新紀錄，AI折疊屏新標桿

在多設備聯動上，榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機等智能聯動，不僅支持手表解鎖手機功能以及一鍵鎖定手表，并支持雙向查找，AI體驗同步流轉，在榮耀手表5 Ultra上，也可以直接喚醒…

07-02

榮耀Magic V5震撼發布：纖薄新紀錄，滿血配置售價8999元起

7月2日，榮耀推出了新一代旗艦大折疊手機——榮耀Magic V5，這款手機不僅再創多項大折疊手機纖薄世界紀錄，還具有大折疊滿血配置，并將AI與手機深度融合，搭載更為智慧化的使用方式。在護眼方面，此前在榮耀直板…

07-02

榮耀Magic V5評測：輕薄新巔峰，全能AI折疊屏旗艦重塑標準

07-02

榮耀Magic V5震撼登場：纖薄新紀錄，滿血配置，售價8999元起

07-02

榮耀Magic V5深度評測：輕薄新標桿，AI折疊屏的全面進化

07-02

榮耀Magic V5：超薄旗艦新標桿，AI交互重塑大折疊體驗

它的低溫與常溫性能差異大約在33.4%，也符合我們對于超薄大折疊的性能釋放預期，同時即便是有著如此嚴格的溫控策略，MagicV5的性能表現也依然要明顯高于那些使用老平臺的競爭對手。Magic V5不只是開創…

07-02

京東JoyInside攜AI潮玩來襲，攜手十余家機器人品牌打造智能生態

07-02

點擊查看更多 +

全站最新

宇宙信使：揭秘玻璃隕石的奧秘與魅力

2025上半年機票均價740元，暑運旺季來臨價格上揚至839元

美波音737客機飛行中襟翼掉落疑似墜入居民區車道

馬斯克旗下xAI Grok 4曝光，百億融資助力“重塑知識庫”計劃

豐田汽車上調零部件采購價，力保6萬家供應商穩定運營

熱門內容

本欄最新

三星Galaxy Z Fold新機：7月9日震撼發布，16GB+1TB高配來襲

榮耀Magic V5震撼發布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊芯片

中國移動新動作：九天人工智能科技公司成立，注冊資本高達20億

榮耀Magic V5震撼發布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊版

榮耀Magic V5深度評測：輕薄新紀錄，AI折疊屏新標桿

榮耀Magic V5震撼發布：纖薄新紀錄，滿血配置售價8999元起

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

主站蜘蛛池模板：呼伦贝尔市| 蓬安县| 麦盖提县| 泸溪县| 阿拉善盟| 普宁市| 平度市| 莲花县| 枣庄市| 黑水县| 苏尼特左旗| 茂名市| 原平市| 大关县| 锡林郭勒盟| 芮城县| 中牟县| 青铜峡市| 上栗县| 桐庐县| 孟津县| 灯塔市| 阳西县| 满洲里市| 扶沟县| 静海县| 华安县| 泰州市| 凤凰县| 阳泉市| 衡水市| 南昌县| 广西| 图片| 陆良县| 萨嘎县| 绥中县| 盐亭县| 新昌县| 霍州市| 兰溪市|

日本精品一区二区三区高清 久久

SciArena平臺亮相：科研人員親測，大語言模型科學文獻任務表現大比拼

日本精品一区二区三区高清久久