新智元報道
編輯:YHluck
OpenAI又搶了谷歌風頭!AI模型最先拿下IMO金牌的頭魁原來是谷歌DeepMind,只是因為內部流程審批慢,被OpenAI搶占先機,占盡風頭。那助OpenAI拿下IMO金牌的模型有何特殊之處?它背后的爭議為何引發菲爾茲獎得主陶哲軒公開出面發聲?
誰曾想,OpenAI又搶盡了谷歌的風頭!
爆料稱,谷歌DeepMind的AI模型早在本周五,也就是兩天前,便拿下了IMO金牌。
但由于內部審核慢,需等下周一市場部批準后,DeepMind才能官宣具體情況。
OpenAI瞅中了時機,用全新通用推理模型在IMO刷題后,立即公開了結果。
昨天,全網幾乎都被OpenAI拿下IMO金牌刷屏了。自家研究員紛紛現身,宣傳OpenAI神秘模型的強大。
如今看來,這一切都是有預謀的。
谷歌DeepMind研究員Archit Sharma調侃道,「恭喜!居然比我們先官宣了——現在P6是新標桿了嗎」?
OpenAI搶奪IMO金牌
GPT-5即將誕生
為什么通用推理模型拿下IMO金牌,會受到熱烈關注?
簡而言之,OpenAI這次的通用推理模型在「通用強化學習和測試時計算擴展方面開辟了新天地?!?/p>
這次的通用推理模型有啥不同之處?
OpenAI推理研究員Noam Brown指出,這個模型并非專門為國際數學奧林匹克競賽(IMO)設計。
它是一個融合了全新實驗性通用技術的推理LLM,使其在難以驗證的任務上表現得更好。
IMO問題正是這一挑戰的完美體現:證明過程長達數頁,專家需要花費數小時來評分。
相比之下,AIME的答案只是一個0到999之間的整數。
與過去的基準相比,IMO問題需要更高層次的持續創造性思維。
這次的通用推理模型,在推理時間跨度上實現了逐步進步:從GSM8K(頂尖人類約 0.1 分鐘)→ MATH基準(約1分鐘)→ AIME(約10分鐘)→ IMO(約100 分鐘)。
「重要的是,它的思考效率也更高。而且在測試時計算能力和效率方面還有很大的提升空間?!?/p>
其次,IMO的參賽作品是難以驗證的多頁證明。
在這方面的進展需要超越明確、可驗證獎勵的強化學習范式。
通過這樣做,就可以獲得一個能夠像人類數學家一樣,構建復雜且無懈可擊論證的模型。
https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt
這項成果到底意味著什么?
Noam Brown給出了答案:
可能因為這次IMO事件,奧特曼也出來公開發聲。
他稱,OpenAI拿下IMO金牌這事,需要強調的是,「這是一個LLM在做數學題,而不是一個特定的形式化數學系統這是朝著AGI邁進的主要部分。」
其實,奧特曼之所以這么「積極主動」,也不難發現是在為GPT-5發布提前鋪路呢!
當下這個節點對OpenAI非常重要,令人期待的GPT-5即將面世。
他們估計想在這個重要節點上,利用OpenAI拿下IMO金牌這事,為GPT-5來波神助攻。
但奧特曼也稍顯謹慎,調低各位對GPT-5的預期。
他指出,GPT-5是一個實驗性模型,用了一些將在未來模型中使用的新研究技術。
「在數月內,不會發布具備IMO金牌水平能力的模型。」
陶哲軒點評IMO
針對IMO金牌得主背后爭議,數學大佬陶哲軒也公開表達了自己的看法。
「不會評論任何未預先公開測試方法的AI競賽成績報告?!?/p>
陶哲軒簡明扼要,在缺乏受控測試環境的情況下,AI的數學能力難以準確評估。
他指出,很多人對AI有個誤解,就是把它的能力看成是「行」或「不行」兩個極端。
但實際上,它的能力是一個巨大的范圍。你給它提供的計算資源、給它的指令有多好,以及你要求它如何輸出結果,都會導致最終效果產生天壤之別。
以人類競賽舉個栗子: 在剛結束的IMO競賽中,各國派出六名高中生選手組成的團隊(由職業數學家擔任領隊)。
兩天賽程中,每位選手每天用四個半小時獨立解答三道難題,僅限紙筆演算。
期間選手嚴禁交流(包括與領隊),僅可向監考詢問題目表述問題。領隊僅在評分環節向評審委員會申訴,不直接參與解題。
都知道,IMO被視為衡量中學生數學能力的金標準:金牌線今年定為35/42分(即完美解答五題),完整解出一題即可獲「榮譽提名」。
但若改變競賽形式,難度將發生劇變!
考慮一下如果我們以其他方式改變奧林匹克競賽的形式,其難度水平會發生什么變化?
比如,給學生幾天時間來完成每道題,而不是三個題目只給四個半小時。
在考試開始前,團隊負責人會將問題改寫成學生更容易理解的格式。
學生可以無限使用計算器、計算機代數軟件包、形式化證明助手、教科書或上網搜索。
領隊讓六人團隊同時處理同一個問題,相互交流各自的部分進展和遇到的死胡同。
在此期間,隊長會引導學生采用更有利的方法,并在某個學生花費過多時間在他們知道不太可能成功的方向時進行干預。
提交階段,每位隊員提交解答,但隊長只選出「最佳」解答遞交競賽,其余的都棄之不用。
如果團隊中的學生都未能獲得令人滿意的解決方案,團隊負責人將不會提交任何解決方案,并且會悄然退出比賽,而他們的參與也永遠不會被記錄。
這些情境下,答案仍「技術性」源自學生之手。
這也說明,競賽形式的改變能使原本銅牌線下的團隊躍升至金牌水平。
「這警示我們,在缺乏統一測試標準的情況下,貿然對比不同AI模型(或AI與人類選手)的IMO表現如同比較蘋果與橙子,沒有對比意義可言,」陶哲軒指出。
參考資料:
https://mathstodon.xyz/@tao/114881418225852441
https://x.com/zjasper666/status/1946650175063384091