滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

OpenAI截胡IMO金牌，奧特曼為GPT-5獻“核彈級”預熱

時間：2025-07-20 18:12:57 來源：新智元編輯：快訊團隊 IP：北京 發表評論無障礙通道

OpenAI又搶了谷歌風頭！AI模型最先拿下IMO金牌的頭魁原來是谷歌DeepMind，只是因為內部流程審批慢，被OpenAI搶占先機，占盡風頭。那助OpenAI拿下IMO金牌的模型有何特殊之處？它背后的爭議為何引發菲爾茲獎得主陶哲軒公開出面發聲？

誰曾想，OpenAI又搶盡了谷歌的風頭！

爆料稱，谷歌DeepMind的AI模型早在本周五，也就是兩天前，便拿下了IMO金牌。

但由于內部審核慢，需等下周一市場部批準后，DeepMind才能官宣具體情況。

OpenAI瞅中了時機，用全新通用推理模型在IMO刷題后，立即公開了結果。

昨天，全網幾乎都被OpenAI拿下IMO金牌刷屏了。自家研究員紛紛現身，宣傳OpenAI神秘模型的強大。

如今看來，這一切都是有預謀的。

谷歌DeepMind研究員Archit Sharma調侃道，「恭喜！居然比我們先官宣了——現在P6是新標桿了嗎」？

OpenAI搶奪IMO金牌

GPT-5即將誕生

為什么通用推理模型拿下IMO金牌，會受到熱烈關注？

簡而言之，OpenAI這次的通用推理模型在「通用強化學習和測試時計算擴展方面開辟了新天地。」

這次的通用推理模型有啥不同之處？

OpenAI推理研究員Noam Brown指出，這個模型并非專門為國際數學奧林匹克競賽（IMO）設計。

它是一個融合了全新實驗性通用技術的推理LLM，使其在難以驗證的任務上表現得更好。

IMO問題正是這一挑戰的完美體現：證明過程長達數頁，專家需要花費數小時來評分。

相比之下，AIME的答案只是一個0到999之間的整數。

與過去的基準相比，IMO問題需要更高層次的持續創造性思維。

這次的通用推理模型，在推理時間跨度上實現了逐步進步：從GSM8K（頂尖人類約 0.1 分鐘）→ MATH基準（約1分鐘）→ AIME（約10分鐘）→ IMO（約100 分鐘）。

「重要的是，它的思考效率也更高。而且在測試時計算能力和效率方面還有很大的提升空間。」

其次，IMO的參賽作品是難以驗證的多頁證明。

在這方面的進展需要超越明確、可驗證獎勵的強化學習范式。

通過這樣做，就可以獲得一個能夠像人類數學家一樣，構建復雜且無懈可擊論證的模型。

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt

這項成果到底意味著什么？

Noam Brown給出了答案：

可能因為這次IMO事件，奧特曼也出來公開發聲。

他稱，OpenAI拿下IMO金牌這事，需要強調的是，「這是一個LLM在做數學題，而不是一個特定的形式化數學系統這是朝著AGI邁進的主要部分。」

其實，奧特曼之所以這么「積極主動」，也不難發現是在為GPT-5發布提前鋪路呢！

當下這個節點對OpenAI非常重要，令人期待的GPT-5即將面世。

他們估計想在這個重要節點上，利用OpenAI拿下IMO金牌這事，為GPT-5來波神助攻。

但奧特曼也稍顯謹慎，調低各位對GPT-5的預期。

他指出，GPT-5是一個實驗性模型，用了一些將在未來模型中使用的新研究技術。

「在數月內，不會發布具備IMO金牌水平能力的模型。」

陶哲軒點評IMO

針對IMO金牌得主背后爭議，數學大佬陶哲軒也公開表達了自己的看法。

「不會評論任何未預先公開測試方法的AI競賽成績報告。」

陶哲軒簡明扼要，在缺乏受控測試環境的情況下，AI的數學能力難以準確評估。

他指出，很多人對AI有個誤解，就是把它的能力看成是「行」或「不行」兩個極端。

但實際上，它的能力是一個巨大的范圍。你給它提供的計算資源、給它的指令有多好，以及你要求它如何輸出結果，都會導致最終效果產生天壤之別。

以人類競賽舉個栗子：在剛結束的IMO競賽中，各國派出六名高中生選手組成的團隊（由職業數學家擔任領隊）。

兩天賽程中，每位選手每天用四個半小時獨立解答三道難題，僅限紙筆演算。

期間選手嚴禁交流（包括與領隊），僅可向監考詢問題目表述問題。領隊僅在評分環節向評審委員會申訴，不直接參與解題。

都知道，IMO被視為衡量中學生數學能力的金標準：金牌線今年定為35/42分（即完美解答五題），完整解出一題即可獲「榮譽提名」。

但若改變競賽形式，難度將發生劇變！

考慮一下如果我們以其他方式改變奧林匹克競賽的形式，其難度水平會發生什么變化？

比如，給學生幾天時間來完成每道題，而不是三個題目只給四個半小時。

在考試開始前，團隊負責人會將問題改寫成學生更容易理解的格式。

學生可以無限使用計算器、計算機代數軟件包、形式化證明助手、教科書或上網搜索。

領隊讓六人團隊同時處理同一個問題，相互交流各自的部分進展和遇到的死胡同。

在此期間，隊長會引導學生采用更有利的方法，并在某個學生花費過多時間在他們知道不太可能成功的方向時進行干預。

提交階段，每位隊員提交解答，但隊長只選出「最佳」解答遞交競賽，其余的都棄之不用。

如果團隊中的學生都未能獲得令人滿意的解決方案，團隊負責人將不會提交任何解決方案，并且會悄然退出比賽，而他們的參與也永遠不會被記錄。

這些情境下，答案仍「技術性」源自學生之手。

這也說明，競賽形式的改變能使原本銅牌線下的團隊躍升至金牌水平。

「這警示我們，在缺乏統一測試標準的情況下，貿然對比不同AI模型（或AI與人類選手）的IMO表現如同比較蘋果與橙子，沒有對比意義可言，」陶哲軒指出。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

12個人的AI公司，融了兩個億

07-20

極氪回應“0公里二手車”爭議：相關報道不實

07-20

鴻蒙智行新款問界M7汽車將推53度電池增程版本

07-20

周鴻祎感慨國產GPU AI芯片追趕速度令人驚嘆

07-20

鴻蒙智行智界新款SUV諜照曝光

07-20

消息稱任天堂日本員工離職率低至2% 遠勝行業平均

07-20

蔚來李斌：樂道L90試駕車將于下周抵達全國門店

07-20

鴻蒙智行享界S9T新車192線主激光雷達感知距離超250m

07-20

消息稱Meta超級智能實驗室已招募44人：一半來自中國

07-20

智界高管力挺“純血”身份，鴻蒙智行戰略轉型能否帶動銷量逆襲？

07-20

Meta超級智能實驗室豪華陣容曝光：44人團隊半數中國籍精英

07-20

鉑爵旅拍風光不再：陷入經營困境，年輕人旅拍選擇趨向多元化

07-20

央視揭秘：萬能遙控器成違法商品，小紅書仍在售，風險隱患需警惕

07-20

OpenAI發布會C位華人亮眼，95后北大校友孫之清成ChatGPT Agent核心

OpenAI內部現在職級最高的華人，首席研究官MarkChen——就是在扎克伯格瘋狂挖角OpenAI研究員后公開吐槽小扎行為讓他覺得“有人進了我家偷東西”的人。而Meta頂級AI組織負責人，小扎找到了M…

07-20

Meta超級智能實驗室招募44名頂尖人才，半數為中國籍

目前，該實驗室已匯聚了 44 名頂尖人才，其中有 50% 的員工來自中國，而 40% 的員工此前曾在 OpenAI 任職。此前，Meta 已經從OpenAI 挖走了 3 名員工，其中一名員工曾表示，他們并未…

07-20

點擊查看更多 +

全站最新

OpenAI發布會C位華人亮眼，95后北大校友孫之清成ChatGPT Agent核心

Meta超級智能實驗室招募44名頂尖人才，半數為中國籍

海爾“AI+工業互聯網”賦能，重塑全球智能制造生態新篇章

馬斯克新動向：專為兒童打造的AI應用“Baby Grok”即將面世

Septentrio Mosaic導航模組：精準農業新引擎，無人機作業效率大提升

Mosaic導航模組：賦能農業無人機，全場景作業邁向精準高效

熱門內容

本欄最新

智界高管力挺“純血”身份，鴻蒙智行戰略轉型能否帶動銷量逆襲？

Meta超級智能實驗室豪華陣容曝光：44人團隊半數中國籍精英

鉑爵旅拍風光不再：陷入經營困境，年輕人旅拍選擇趨向多元化

央視揭秘：萬能遙控器成違法商品，小紅書仍在售，風險隱患需警惕

OpenAI發布會C位華人亮眼，95后北大校友孫之清成ChatGPT Agent核心

Meta超級智能實驗室招募44名頂尖人才，半數為中國籍

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

OpenAI截胡IMO金牌，奧特曼為GPT-5獻“核彈級”預熱

日本精品一区二区三区高清久久