人工智能在科研領(lǐng)域的表現(xiàn)再次成為焦點(diǎn)。OpenAI近日推出全新基準(zhǔn)測(cè)試FrontierScience,通過(guò)物理、化學(xué)、生物三大領(lǐng)域的博士級(jí)難題,檢驗(yàn)AI系統(tǒng)能否突破知識(shí)記憶層面,實(shí)現(xiàn)真正的科學(xué)推理能力。這項(xiàng)測(cè)試揭示了一個(gè)關(guān)鍵結(jié)論:即便在標(biāo)準(zhǔn)化考試中表現(xiàn)優(yōu)異,當(dāng)前AI距離成為獨(dú)立科研工作者仍有顯著差距。
該基準(zhǔn)測(cè)試包含700余道文本型題目,分為競(jìng)賽賽道與研究賽道兩大模塊。競(jìng)賽賽道聚焦100道短答案題目,要求在嚴(yán)格約束條件下完成精準(zhǔn)推理;研究賽道則設(shè)置60個(gè)開(kāi)放式子任務(wù),涵蓋量子電動(dòng)力學(xué)、合成有機(jī)化學(xué)等前沿方向,需在無(wú)標(biāo)準(zhǔn)答案的情況下構(gòu)建完整邏輯鏈條。測(cè)試特別設(shè)置"黃金組"160道題目作為核心評(píng)估樣本,其中研究賽道題目由45位領(lǐng)域?qū)<以O(shè)計(jì),采用10分制評(píng)分標(biāo)準(zhǔn),7分以上視為通過(guò)。
測(cè)試結(jié)果顯示,GPT-5.2在競(jìng)賽賽道取得77%的正確率,研究賽道得分25%,暫居領(lǐng)先地位;Gemini 3 Pro以76%的競(jìng)賽成績(jī)緊隨其后。但深入分析錯(cuò)誤類型發(fā)現(xiàn),前沿模型普遍存在推理斷層、概念混淆和計(jì)算偏差等問(wèn)題。例如在量子物理題目中,某模型因混淆"自旋軌道耦合"與"角動(dòng)量守恒"導(dǎo)致全盤(pán)錯(cuò)誤;有機(jī)化學(xué)合成路徑規(guī)劃中,另一模型因忽視立體選擇性反應(yīng)條件而設(shè)計(jì)出不可行方案。
測(cè)試設(shè)計(jì)團(tuán)隊(duì)刻意排除現(xiàn)有模型能夠解答的題目,使得評(píng)估標(biāo)準(zhǔn)更為嚴(yán)苛。為確保評(píng)分客觀性,研究賽道采用GPT-5作為自動(dòng)評(píng)分系統(tǒng),通過(guò)對(duì)照專家制定的評(píng)分細(xì)則進(jìn)行逐項(xiàng)判定。盡管這種設(shè)計(jì)可能對(duì)OpenAI自家模型形成額外挑戰(zhàn),但開(kāi)發(fā)團(tuán)隊(duì)強(qiáng)調(diào)這有助于更真實(shí)反映模型在未知領(lǐng)域的適應(yīng)能力。測(cè)試數(shù)據(jù)表明,模型思考時(shí)間與準(zhǔn)確率呈正相關(guān),在給予充分推理時(shí)間的情況下,部分題目的正確率可提升15-20個(gè)百分點(diǎn)。
這項(xiàng)基準(zhǔn)測(cè)試也暴露出當(dāng)前評(píng)估體系的局限性。OpenAI坦言,現(xiàn)有測(cè)試框架將復(fù)雜科研過(guò)程簡(jiǎn)化為可控題目,如同"用顯微鏡觀察森林",難以衡量模型提出創(chuàng)新假設(shè)的能力,也無(wú)法評(píng)估其處理多模態(tài)數(shù)據(jù)或指導(dǎo)實(shí)驗(yàn)操作的實(shí)際價(jià)值。測(cè)試團(tuán)隊(duì)正在開(kāi)發(fā)擴(kuò)展題庫(kù),計(jì)劃納入更多跨學(xué)科場(chǎng)景和真實(shí)實(shí)驗(yàn)數(shù)據(jù),同時(shí)建立長(zhǎng)期追蹤機(jī)制,觀察AI系統(tǒng)如何切實(shí)輔助科研人員提升工作效率。











