人工智能在科研領(lǐng)域的突破引發(fā)持續(xù)關(guān)注,OpenAI近日發(fā)布全新評(píng)測(cè)體系FrontierScience,試圖通過(guò)物理、化學(xué)、生物三大基礎(chǔ)學(xué)科的博士級(jí)難題,檢驗(yàn)AI系統(tǒng)能否突破知識(shí)記憶層面,實(shí)現(xiàn)真正的科學(xué)推理能力。這項(xiàng)測(cè)試顯示,當(dāng)前最先進(jìn)的AI模型在復(fù)雜科研場(chǎng)景中仍存在顯著短板,距離成為獨(dú)立科研主體仍有較大差距。
該評(píng)測(cè)體系包含700余道文本型題目,分為競(jìng)賽賽道與研究賽道兩大模塊。競(jìng)賽賽道聚焦約束條件下的精準(zhǔn)推理,要求答案簡(jiǎn)潔明確;研究賽道則模擬真實(shí)科研場(chǎng)景,設(shè)置開放性問(wèn)題并采用10分制評(píng)分標(biāo)準(zhǔn)。其中160道"黃金組"題目已對(duì)外開源,其余題目作為數(shù)據(jù)污染追蹤保留。測(cè)試團(tuán)隊(duì)特別強(qiáng)調(diào),所有題目均經(jīng)過(guò)嚴(yán)格篩選,確保OpenAI自家模型無(wú)法通過(guò)預(yù)先訓(xùn)練數(shù)據(jù)直接作答。
在題目設(shè)計(jì)層面,科研團(tuán)隊(duì)展現(xiàn)了跨學(xué)科協(xié)作的深度。競(jìng)賽賽道與42位國(guó)際奧賽獎(jiǎng)牌得主及國(guó)家隊(duì)教練合作,累計(jì)涵蓋109枚國(guó)際獎(jiǎng)項(xiàng);研究賽道則由45位活躍科研人員參與命題,覆蓋量子電動(dòng)力學(xué)、合成有機(jī)化學(xué)、進(jìn)化生物學(xué)等前沿領(lǐng)域。這種設(shè)計(jì)使得評(píng)測(cè)體系既具備專業(yè)深度,又能反映真實(shí)科研場(chǎng)景的復(fù)雜性。
評(píng)測(cè)結(jié)果顯示,GPT-5.2在競(jìng)賽賽道取得77%的準(zhǔn)確率,研究賽道得分25%,綜合表現(xiàn)領(lǐng)先其他模型。Gemini 3 Pro以76%的競(jìng)賽成績(jī)緊隨其后。但深入分析錯(cuò)誤類型發(fā)現(xiàn),AI系統(tǒng)普遍存在推理邏輯漏洞、冷門概念混淆、計(jì)算過(guò)程失誤等問(wèn)題。值得注意的是,當(dāng)模型被賦予更長(zhǎng)的思考時(shí)間時(shí),準(zhǔn)確率呈現(xiàn)明顯提升趨勢(shì),這為后續(xù)優(yōu)化提供了重要方向。
OpenAI坦言當(dāng)前評(píng)測(cè)體系的局限性:標(biāo)準(zhǔn)化題目設(shè)計(jì)雖能提升評(píng)估效率,但難以完全還原科研工作的動(dòng)態(tài)過(guò)程。特別是對(duì)于假設(shè)生成能力、多模態(tài)數(shù)據(jù)處理、實(shí)驗(yàn)系統(tǒng)交互等關(guān)鍵科研環(huán)節(jié),現(xiàn)有評(píng)測(cè)尚未形成有效覆蓋。研究團(tuán)隊(duì)正在開發(fā)迭代版本,計(jì)劃納入更多真實(shí)世界評(píng)估指標(biāo),重點(diǎn)觀察AI系統(tǒng)對(duì)科研效率的實(shí)際提升作用。
這項(xiàng)研究引發(fā)學(xué)界對(duì)AI科研定位的深入思考。盡管AI已在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽等標(biāo)準(zhǔn)化測(cè)試中達(dá)到金牌水平,但科研創(chuàng)新需要突破既有知識(shí)框架的能力。當(dāng)前AI系統(tǒng)更擅長(zhǎng)在已知領(lǐng)域進(jìn)行高效推理,而在提出全新假設(shè)、設(shè)計(jì)原創(chuàng)實(shí)驗(yàn)方案等創(chuàng)造性環(huán)節(jié)仍依賴人類指導(dǎo)。如何讓AI系統(tǒng)從"解題高手"進(jìn)化為"問(wèn)題發(fā)現(xiàn)者",將成為下一階段技術(shù)突破的關(guān)鍵方向。










