滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

北大PHYBench評測：AI物理推理能力，能否超越人類智慧？

時間：2025-04-29 10:47:32 來源：ITBEAR編輯：快訊團隊 發(fā)表評論無障礙通道

北京大學(xué)物理學(xué)院攜手校內(nèi)多個學(xué)院，共同揭曉了一項名為“PHYBench”的全新評測體系，該體系專注于衡量大型模型在物理推理領(lǐng)域的實際效能。這一項目的核心驅(qū)動力來自朱華星教授與曹慶宏副院長，集結(jié)了一支超過200人的精英團隊，成員包括物理學(xué)院及其他學(xué)科的佼佼者，其中不乏全國中學(xué)生物理競賽的金牌得主。

PHYBench精心策劃了500道物理題目，內(nèi)容廣泛覆蓋從高中物理知識到大學(xué)物理課程，乃至物理奧林匹克競賽的復(fù)雜挑戰(zhàn)。與傳統(tǒng)評估手段不同，PHYBench引入了創(chuàng)新的評分機制——表達式樹編輯距離（EED Score），這一方法通過分析模型答案與標準答案在數(shù)學(xué)表達式結(jié)構(gòu)上的相似性，能夠更為精確地評估模型的推理深度。相較于傳統(tǒng)的對錯評判，EED Score提供的連續(xù)分數(shù)體系，更能細膩地展現(xiàn)不同模型間的性能差異。

在一次引人注目的“人機對抗”中，81名來自北京大學(xué)的學(xué)子與頂尖的人工智能模型進行了正面交鋒。結(jié)果顯示，盡管Gemini2.5pro模型作為AI界的佼佼者，但其答題正確率僅為36.9%，而人類專家的平均正確率則高達61.9%，這一結(jié)果凸顯了人類在物理推理方面的顯著優(yōu)勢。PHYBench研究團隊深入剖析了模型的錯誤，將推理過程細分為物理感知與魯棒推理兩大環(huán)節(jié)，揭示了當前AI在物理推理領(lǐng)域面臨的瓶頸。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

2025駕培市場新趨勢：“AI+駕培”引領(lǐng)行業(yè)轉(zhuǎn)型升級

05-26

心言集團測測APP：科技賦能"尋我之旅"，探索未知自我新篇章

05-26

博士眼鏡攜手李未可，線下首發(fā)AI智能眼鏡新品，引領(lǐng)智能穿戴新風(fēng)尚

05-26

美對華芯片封鎖效果幾何？業(yè)內(nèi)：弊大于利，中國加速追趕！

05-26

ATFX引領(lǐng)AI金融新紀元：智能化轉(zhuǎn)型如何重塑金融服務(wù)生態(tài)？

05-26

濟南平陰無人礦卡項目揭秘：19臺車如何快速實現(xiàn)常態(tài)化無人作業(yè)？

05-26

360瀏覽器AI化革新，搜索助手一體化開啟智能上網(wǎng)新篇章

05-26

北京AI產(chǎn)業(yè)基金注資源絡(luò)科技，共探具身智能機器人新未來

05-26

全球餐飲盛宴！2025全美餐飲展見證中餐品牌睿食拓閃耀亮相

05-26

絕配供應(yīng)鏈攜“冰蠶”大模型亮相中物聯(lián)大會，引領(lǐng)餐飲供應(yīng)鏈數(shù)智化變革

05-26

印象筆記攜手騰訊云：AI賦能知識管理，全球布局再提速！

05-26

微軟成AI領(lǐng)域新寵，三大科技巨頭齊站臺為何？

05-26

Claude4入駐Amazon Bedrock，企業(yè)級AI應(yīng)用迎來新突破

05-26

紅杉中國發(fā)布xbench，動態(tài)評估AI智能體，引領(lǐng)評估新標準

05-26

AI編程大戰(zhàn)一觸即發(fā)，Cursor能否突出重圍？

近期，先是OpenAI宣布Codex Agent編程模式，微軟正式開源GitHub Copilot Extension for VS Code項目，而后谷歌就公布其AI編程Agent工具Jules私有預(yù)覽版…

05-26

點擊查看更多 +

全站最新

寧德時代布局新能源版圖，鄭州武漢海南新科技公司相繼成立

宗馥莉職務(wù)變動引關(guān)注，娃哈哈旗下公司法定代表人更迭為何？

吉利布局新能源，翼能快充衛(wèi)士商標申請引關(guān)注

小鵬汽車一季度虧損收窄，何小鵬底氣何來預(yù)測四季度盈利？

駐津央企中汽信科：汽車行業(yè)三排座車型首次“超速+疊加碰撞”挑戰(zhàn)成功

余承東開車被疑睡著？回應(yīng)后澄清，曾言自動駕駛可小憩

熱門內(nèi)容

本欄最新

2025駕培市場新趨勢：“AI+駕培”引領(lǐng)行業(yè)轉(zhuǎn)型升級

心言集團測測APP：科技賦能"尋我之旅"，探索未知自我新篇章

博士眼鏡攜手李未可，線下首發(fā)AI智能眼鏡新品，引領(lǐng)智能穿戴新風(fēng)尚

ATFX引領(lǐng)AI金融新紀元：智能化轉(zhuǎn)型如何重塑金融服務(wù)生態(tài)？

濟南平陰無人礦卡項目揭秘：19臺車如何快速實現(xiàn)常態(tài)化無人作業(yè)？

北京AI產(chǎn)業(yè)基金注資源絡(luò)科技，共探具身智能機器人新未來

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

北大PHYBench評測：AI物理推理能力，能否超越人類智慧？

日本精品一区二区三区高清久久

北大PHYBench評測：AI物理推理能力，能否超越人類智慧？