滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

OpenAI發(fā)布權(quán)威AI科研基準(zhǔn)，扯下AI遮羞布：奧賽金牌≠一流科學(xué)家！

時(shí)間：2025-12-17 18:24:13 來源：新智元編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

OpenAI最新發(fā)布的FrontierScience基準(zhǔn)，試圖用真實(shí)的博士級(jí)難題，從物理、化學(xué)、生物三個(gè)維度上考驗(yàn)AI。真相是殘酷的：在沒有唯一標(biāo)準(zhǔn)答案的科研實(shí)戰(zhàn)中，AI作為「頂級(jí)做題家」，距離真正的科學(xué)家，還差得遠(yuǎn)。

OpenAI在2025年12月16日發(fā)布了一套新基準(zhǔn)FrontierScience，用來衡量AI在物理、化學(xué)、生物三門學(xué)科里，能否做到接近專家水準(zhǔn)的科學(xué)推理，而不只是背知識(shí)點(diǎn)。

OpenAI在文中把科學(xué)工作描述成一套更接近「持續(xù)試錯(cuò)」的流程。

提出假設(shè)，設(shè)計(jì)驗(yàn)證，推翻再重來，還要把不同領(lǐng)域的線索拼成同一張圖。

模型越強(qiáng)，問題就越尖銳，AI能不能把這種深推理用到真正的科研推進(jìn)上。

OpenAI提到，過去一年他們的系統(tǒng)在國際數(shù)學(xué)奧林匹克和國際信息學(xué)奧林匹克上達(dá)到了金牌級(jí)表現(xiàn)，同時(shí)更重要的變化發(fā)生在實(shí)驗(yàn)室和辦公室里。

研究者開始拿這些模型做跨學(xué)科文獻(xiàn)檢索，跨語言讀論文，也拿它們?nèi)ネ茝?fù)雜證明。

有些原本要耗掉幾天甚至幾周的工作，被壓到幾小時(shí)就能跑完一輪。

為什么需要FrontierScience？OpenAI給了一個(gè)對(duì)比。

2023年11月，GPQA這個(gè)由博士專家撰寫、強(qiáng)調(diào)「谷歌搜不到」的科學(xué)題庫發(fā)布時(shí)，GPT-4只拿到39%，低于專家基線74%。

兩年后，GPT-5.2在同一基準(zhǔn)上拿到92%。

當(dāng)舊題庫逐漸被刷穿，新的尺子就必須更長，否則你看不出模型還能往哪里發(fā)展。

FrontierScience的設(shè)計(jì)更像是給模型丟進(jìn)兩種不同的「科學(xué)難關(guān)」。

一類偏競(jìng)賽風(fēng)格，考你在約束條件下把推理做到干凈利落。

物理競(jìng)賽題示例

另一類更貼近研究現(xiàn)場(chǎng)，要求你在開放問題里把思路走通，哪怕沒有標(biāo)準(zhǔn)答案那么工整。

物理科研問題示例

這套評(píng)測(cè)總量超過700道文本型題目，其中160道屬于「黃金組」（Gold Set）題目。

競(jìng)賽賽道有100道題，強(qiáng)調(diào)短答案形式，便于核驗(yàn)對(duì)錯(cuò)。

研究賽道有60個(gè)原創(chuàng)研究子任務(wù)，由博士階段或更資深的研究者設(shè)計(jì)，用10分制評(píng)分，拿到至少7分才算通過。

題目質(zhì)量是有充足保障的：

競(jìng)賽賽道和42位前國際獎(jiǎng)牌得主或國家隊(duì)教練合作，總計(jì)109枚奧賽獎(jiǎng)牌；

研究賽道由45位合格科學(xué)家與領(lǐng)域?qū)＜覅⑴c，覆蓋從量子電動(dòng)力學(xué)到合成有機(jī)化學(xué)，再到進(jìn)化生物學(xué)等細(xì)分方向。

OpenAI還承認(rèn)了一個(gè)不那么「中立」的細(xì)節(jié)。

兩套題在制作流程里會(huì)刻意淘汰OpenAI自家內(nèi)部模型已經(jīng)能答對(duì)的題，因此這套評(píng)測(cè)對(duì)OpenAI自家模型可能更苛刻一些。

與此同時(shí)，他們開源了兩套賽道的「黃金組」題目，其余題目保留，用來追蹤數(shù)據(jù)污染。

OpenAI說，短答案適合機(jī)器判定，但研究型任務(wù)需要更細(xì)顆粒度的量表，于是他們用GPT-5充當(dāng)模型判卷員，對(duì)照短答案逐項(xiàng)打分。

理想狀態(tài)是請(qǐng)專家逐題批改，現(xiàn)實(shí)是規(guī)模不允許，于是規(guī)則被設(shè)計(jì)成盡量客觀且可被模型檢查，并配了驗(yàn)證流程來校準(zhǔn)難度與正確性。

成績單上，OpenAI給出了一輪初測(cè)對(duì)比。

他們?cè)u(píng)測(cè)了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示，GPT-5.2在競(jìng)賽題上得分77%，在研究題上得分25%，目前領(lǐng)先；Gemini 3 Pro在競(jìng)賽題上拿到76%，緊跟其后。

更值得注意的是失敗原因。

OpenAI從答題記錄里總結(jié)，前沿模型仍會(huì)犯推理、邏輯和計(jì)算錯(cuò)誤，會(huì)卡在冷門概念上，也會(huì)出現(xiàn)事實(shí)性偏差。

另一個(gè)很樸素的觀察也被寫進(jìn)正文：模型想得更久，準(zhǔn)確率往往更高。

OpenAI對(duì)FrontierScience的邊界也直言不諱。

它把科研切成可控的題目，這讓評(píng)測(cè)更標(biāo)準(zhǔn)化，但也意味著它更像一張高清截圖，而不是科研的全景紀(jì)錄片。

尤其是它不評(píng)估模型能否提出真正新穎的假設(shè)，也不覆蓋它與多模態(tài)數(shù)據(jù)和現(xiàn)實(shí)實(shí)驗(yàn)系統(tǒng)打交道的能力。

接下來，OpenAI計(jì)劃迭代題庫、擴(kuò)展領(lǐng)域，并配套更多真實(shí)世界評(píng)估，看這些系統(tǒng)究竟讓科學(xué)家多做成了什么。

12-17

摩爾線程算法一鳴驚人，圖形學(xué)頂會(huì)奪銀！已開源

12-17

OpenAI大佬爆料：打字太慢拖后腿，人類竟成了AGI短板？

12-17

突發(fā)公告：關(guān)閉中國內(nèi)地所有門店

12-17

京東上線「自提」功能，12月18日開啟「大牌請(qǐng)客」

12-17

京東突發(fā)通知：要求牢記獨(dú)特優(yōu)勢(shì)，并全員背誦

12-17

抖音探索將未成年人模式升級(jí)為「家庭親子護(hù)航模式」，成立專家顧問團(tuán)

12-17

小米短劇業(yè)務(wù)：擁有1000部S級(jí)短劇，人均觀看時(shí)長70分鐘

12-17

小米公布短劇內(nèi)容進(jìn)展

12-17

360回應(yīng)玉紅做假賬說：完全失實(shí)

12-17

小紅書上的地鐵生存指南

12-17

三星Galaxy S26 Ultra升級(jí)亮點(diǎn)曝光：全系唯一值得考慮機(jī)型

12-17

盧偉冰喜提小米17 Ultra 米粉：用起來怎么樣

12-17

三六零：GameWave系公司年均收入0.2億元不存在財(cái)務(wù)造假

12-17

特斯拉股價(jià)逆市狂漲：市值一夜飆升3400億超中國上市車企總和

12-17

點(diǎn)擊查看更多 +

全站最新

天津京東消費(fèi)金融高層變動(dòng)：Vladimir Nyc卸任李波接棒董事長一職

1.27億元廣西南寧數(shù)實(shí)融合大單揭曉京東領(lǐng)跑中標(biāo)榜首

藍(lán)凌OA助力FESCO數(shù)智轉(zhuǎn)型，以智慧協(xié)同打造人資服務(wù)新標(biāo)桿

比亞迪仰望多車型冬季OTA升級(jí)，新增防暈車、聲紋解鎖等多項(xiàng)實(shí)用功能

萬寧中國內(nèi)地業(yè)務(wù)將全面停運(yùn)！曾坐擁超120家門店今謝幕

萬寧中國內(nèi)地業(yè)務(wù)將全面停擺 2026年線下門店全部關(guān)閉線上商城同步關(guān)停

熱門內(nèi)容

本欄最新

天津京東消費(fèi)金融高層變動(dòng)：Vladimir Nyc卸任李波接棒董事長一職

1.27億元廣西南寧數(shù)實(shí)融合大單揭曉京東領(lǐng)跑中標(biāo)榜首

萬寧中國內(nèi)地業(yè)務(wù)將全面停運(yùn)！曾坐擁超120家門店今謝幕

萬寧中國內(nèi)地業(yè)務(wù)將全面停擺 2026年線下門店全部關(guān)閉線上商城同步關(guān)停

京東硬折扣超市北京首店啟幕，探索本土化路徑能否比肩奧樂齊？

萬寧中國內(nèi)地業(yè)務(wù)將全面停運(yùn)：2026年線下門店關(guān)閉線上多平臺(tái)同步下線

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

OpenAI發(fā)布權(quán)威AI科研基準(zhǔn)，扯下AI遮羞布：奧賽金牌≠一流科學(xué)家！

日本精品一区二区三区高清久久