滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

一盤大棋！OpenAI「截胡」IMO金牌，奧特曼為GPT-5獻上「核彈級」預熱

時間：2025-07-20 11:59:30 來源：新智元編輯：快訊團隊 IP：北京 發表評論無障礙通道

新智元報道

編輯：YHluck

OpenAI又搶了谷歌風頭！AI模型最先拿下IMO金牌的頭魁原來是谷歌DeepMind，只是因為內部流程審批慢，被OpenAI搶占先機，占盡風頭。那助OpenAI拿下IMO金牌的模型有何特殊之處？它背后的爭議為何引發菲爾茲獎得主陶哲軒公開出面發聲？

誰曾想，OpenAI又搶盡了谷歌的風頭！

爆料稱，谷歌DeepMind的AI模型早在本周五，也就是兩天前，便拿下了IMO金牌。

但由于內部審核慢，需等下周一市場部批準后，DeepMind才能官宣具體情況。

OpenAI瞅中了時機，用全新通用推理模型在IMO刷題后，立即公開了結果。

昨天，全網幾乎都被OpenAI拿下IMO金牌刷屏了。自家研究員紛紛現身，宣傳OpenAI神秘模型的強大。

如今看來，這一切都是有預謀的。

谷歌DeepMind研究員Archit Sharma調侃道，「恭喜！居然比我們先官宣了——現在P6是新標桿了嗎」？

OpenAI搶奪IMO金牌

GPT-5即將誕生

為什么通用推理模型拿下IMO金牌，會受到熱烈關注？

簡而言之，OpenAI這次的通用推理模型在「通用強化學習和測試時計算擴展方面開辟了新天地?！?/p>

這次的通用推理模型有啥不同之處？

OpenAI推理研究員Noam Brown指出，這個模型并非專門為國際數學奧林匹克競賽（IMO）設計。

它是一個融合了全新實驗性通用技術的推理LLM，使其在難以驗證的任務上表現得更好。

IMO問題正是這一挑戰的完美體現：證明過程長達數頁，專家需要花費數小時來評分。

相比之下，AIME的答案只是一個0到999之間的整數。

與過去的基準相比，IMO問題需要更高層次的持續創造性思維。

這次的通用推理模型，在推理時間跨度上實現了逐步進步：從GSM8K（頂尖人類約 0.1 分鐘）→ MATH基準（約1分鐘）→ AIME（約10分鐘）→ IMO（約100 分鐘）。

「重要的是，它的思考效率也更高。而且在測試時計算能力和效率方面還有很大的提升空間?！?/p>

其次，IMO的參賽作品是難以驗證的多頁證明。

在這方面的進展需要超越明確、可驗證獎勵的強化學習范式。

通過這樣做，就可以獲得一個能夠像人類數學家一樣，構建復雜且無懈可擊論證的模型。

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt

這項成果到底意味著什么？

Noam Brown給出了答案：

可能因為這次IMO事件，奧特曼也出來公開發聲。

他稱，OpenAI拿下IMO金牌這事，需要強調的是，「這是一個LLM在做數學題，而不是一個特定的形式化數學系統這是朝著AGI邁進的主要部分。」

其實，奧特曼之所以這么「積極主動」，也不難發現是在為GPT-5發布提前鋪路呢！

當下這個節點對OpenAI非常重要，令人期待的GPT-5即將面世。

他們估計想在這個重要節點上，利用OpenAI拿下IMO金牌這事，為GPT-5來波神助攻。

但奧特曼也稍顯謹慎，調低各位對GPT-5的預期。

他指出，GPT-5是一個實驗性模型，用了一些將在未來模型中使用的新研究技術。

「在數月內，不會發布具備IMO金牌水平能力的模型。」

陶哲軒點評IMO

針對IMO金牌得主背后爭議，數學大佬陶哲軒也公開表達了自己的看法。

「不會評論任何未預先公開測試方法的AI競賽成績報告?！?/p>

陶哲軒簡明扼要，在缺乏受控測試環境的情況下，AI的數學能力難以準確評估。

他指出，很多人對AI有個誤解，就是把它的能力看成是「行」或「不行」兩個極端。

但實際上，它的能力是一個巨大的范圍。你給它提供的計算資源、給它的指令有多好，以及你要求它如何輸出結果，都會導致最終效果產生天壤之別。

以人類競賽舉個栗子：在剛結束的IMO競賽中，各國派出六名高中生選手組成的團隊（由職業數學家擔任領隊）。

兩天賽程中，每位選手每天用四個半小時獨立解答三道難題，僅限紙筆演算。

期間選手嚴禁交流（包括與領隊），僅可向監考詢問題目表述問題。領隊僅在評分環節向評審委員會申訴，不直接參與解題。

都知道，IMO被視為衡量中學生數學能力的金標準：金牌線今年定為35/42分（即完美解答五題），完整解出一題即可獲「榮譽提名」。

但若改變競賽形式，難度將發生劇變！

考慮一下如果我們以其他方式改變奧林匹克競賽的形式，其難度水平會發生什么變化？

比如，給學生幾天時間來完成每道題，而不是三個題目只給四個半小時。

在考試開始前，團隊負責人會將問題改寫成學生更容易理解的格式。

學生可以無限使用計算器、計算機代數軟件包、形式化證明助手、教科書或上網搜索。

領隊讓六人團隊同時處理同一個問題，相互交流各自的部分進展和遇到的死胡同。

在此期間，隊長會引導學生采用更有利的方法，并在某個學生花費過多時間在他們知道不太可能成功的方向時進行干預。

提交階段，每位隊員提交解答，但隊長只選出「最佳」解答遞交競賽，其余的都棄之不用。

如果團隊中的學生都未能獲得令人滿意的解決方案，團隊負責人將不會提交任何解決方案，并且會悄然退出比賽，而他們的參與也永遠不會被記錄。

這些情境下，答案仍「技術性」源自學生之手。

這也說明，競賽形式的改變能使原本銅牌線下的團隊躍升至金牌水平。

「這警示我們，在缺乏統一測試標準的情況下，貿然對比不同AI模型（或AI與人類選手）的IMO表現如同比較蘋果與橙子，沒有對比意義可言，」陶哲軒指出。

參考資料：

https://mathstodon.xyz/@tao/114881418225852441

https://x.com/zjasper666/status/1946650175063384091

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

消息稱法拉第未來 FX Super One 新車改自魏牌高山 9

07-20

哈弗大狗2026款，9.89萬，超值購車體驗

07-20

特斯拉中國發布Model Y L版，加長150軸距，六座挑戰競品

07-20

BJ40燃油正式上市12.69萬元起開啟“全民越野”時代

07-20

五菱新車尺寸升級，能否續寫神車傳奇

07-20

十二萬級價格破局BJ40燃油以專業配置致敬中國越野60年

07-20

比亞迪新車型方程豹鈦7，四季度上市，帶智能駕駛，180公里純電續航

07-20

限時權益價9.89萬起，2026款哈弗大狗煥新上市

07-20

小米SU7 vs 特斯拉Model 3：車主真實對比

07-20

BJ40燃油版上市，12.69萬起，頂級越野體驗

07-20

BJ40燃油版發布，售價12.69萬起，引領越野新風尚

07-20

下半年精彩新車大集合，車迷福利多多，速來圍觀

07-20

BJ40燃油版12.69萬上市，啟全民越野新紀元

07-20

新奇駿攜1.5T混動回歸，能否提振人心

07-20

7月29日，理想i2內飾大揭秘，科技豪華新風尚來襲

07-20

點擊查看更多 +

全站最新

32.99萬起！東風猛士M817預售：全棧華為技術加持

可城可野可潮，哈弗大狗2026款以潮改再樹泛越野新標桿！

沃爾沃EX30 Cross Country正式上市

陜西前“首富”！成功減虧28億

國內賣不動，老外卻搶瘋了？國產“速凍”黑科技訂單飆漲335%

OpenAI發布ChatGPT Agent，初創公司Manus等如何應對AI競賽新挑戰？

熱門內容

本欄最新

15萬元純電SUV橫評：零跑C10/深藍S05/銀河E5

全新MG4正式亮相，最高續航537公里，或9月5日上市

第174期：到底是誰在買本田冠道和UR-V？

BJ40燃油上市：煥新價最低12.69萬元起

推薦405KM國軒踏浪版凱翼拾月Mate購車指南

從用戶體驗到市場引領：魏牌雙山深圳交付背后的產品邏輯

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

一盤大棋！OpenAI「截胡」IMO金牌，奧特曼為GPT-5獻上「核彈級」預熱

日本精品一区二区三区高清久久

一盤大棋！OpenAI「截胡」IMO金牌，奧特曼為GPT-5獻上「核彈級」預熱