北京大學(xué)物理學(xué)院攜手校內(nèi)多個學(xué)院,共同揭曉了一項名為“PHYBench”的全新評測體系,該體系專注于衡量大型模型在物理推理領(lǐng)域的實際效能。這一項目的核心驅(qū)動力來自朱華星教授與曹慶宏副院長,集結(jié)了一支超過200人的精英團隊,成員包括物理學(xué)院及其他學(xué)科的佼佼者,其中不乏全國中學(xué)生物理競賽的金牌得主。
PHYBench精心策劃了500道物理題目,內(nèi)容廣泛覆蓋從高中物理知識到大學(xué)物理課程,乃至物理奧林匹克競賽的復(fù)雜挑戰(zhàn)。與傳統(tǒng)評估手段不同,PHYBench引入了創(chuàng)新的評分機制——表達式樹編輯距離(EED Score),這一方法通過分析模型答案與標準答案在數(shù)學(xué)表達式結(jié)構(gòu)上的相似性,能夠更為精確地評估模型的推理深度。相較于傳統(tǒng)的對錯評判,EED Score提供的連續(xù)分數(shù)體系,更能細膩地展現(xiàn)不同模型間的性能差異。
在一次引人注目的“人機對抗”中,81名來自北京大學(xué)的學(xué)子與頂尖的人工智能模型進行了正面交鋒。結(jié)果顯示,盡管Gemini2.5pro模型作為AI界的佼佼者,但其答題正確率僅為36.9%,而人類專家的平均正確率則高達61.9%,這一結(jié)果凸顯了人類在物理推理方面的顯著優(yōu)勢。PHYBench研究團隊深入剖析了模型的錯誤,將推理過程細分為物理感知與魯棒推理兩大環(huán)節(jié),揭示了當前AI在物理推理領(lǐng)域面臨的瓶頸。