機器之心報道
機器之心編輯部
就在上個周末,Sam Altman 大張旗鼓地宣布,OpenAI 的一款未公開實驗性大語言模型在 2025 年國際數學奧林匹克競賽(IMO)中達到了金牌水平,得分 35/42,成功躋身全球頂尖數學競賽選手行列。
有意思的是,據報道不止 OpenAI,谷歌 DeepMind 在這次比賽中,也拿到了 IMO 金牌。但相比 OpenAI 的高調官宣,這次谷歌顯得有點低調。
谷歌的低調是有原因的,根據 IMO 組委會一位成員、兩屆 IMO 金牌得主 Joseph Myers 的說法,IMO 曾要求 AI 公司(即參賽的大模型)不要搶走參賽學生的風頭,建議在閉幕式后一周再公布相關結果,一方面是出于對人類參賽者的尊重,另一方面也是為了留出時間對人工智能提交的答案和格式進行驗證。
然而,OpenAI 卻在閉幕式之前(但根據 OpenAI 研究科學家 Noam Brown 的說法是之后)就公布了結果。
IMO 評審團和協調員的普遍看法是,OpenAI 的這種做法很無禮,也不合適。
遺憾的是,OpenAI 似乎更在乎炒作和聲量,不惜搶占參賽學生的風頭,于是他們在昨天就提前公布了結果。
來自 OpenAI 的員工在慶祝自家模型獲得了 IMO 金牌,時間和 IMO 閉幕式時間非常相近,閉幕時間在 7 月 19 日(當地時間)下午 4 點舉行。
也不知是否是因為 OpenAI 搶發,機器之心也了解到,谷歌 DeepMind 與字節 Seed 團隊 IMO 競賽的結果,也將在今天或者近期公布,且分數是官方評的。
另外,Joseph Myers 還表示,OpenAI 沒有與 IMO 合作測試他們的模型,91 名官方 IMO 協調員都沒有對 OpenAI 的解決方案進行評級。
相比來看,DeepMind 似乎很遵守規則,并耐心等待官宣時間。
一家專注于數學 AI 的初創公司 Harmonic 公開證實了這一點:「為了維護學生競賽的神圣性,IMO 董事會要求參賽的 AI 公司需要等到 7 月 28 日發布結果。」
看來,OpenAI 確實是沒有遵守 IMO 要求,提前就把結果公布了。
谷歌 DeepMind 推理團隊負責人 Thang Luong 對此事也進行了點評,表示道,IMO 組委會確實有一份官方評分標準,但這份評分指南并未對外公開。如果沒有依據該評分標準進行評估,參賽組織就無法宣稱獲得獎牌。如果有一分被扣,那就是銀牌,而不是金牌。
IMO 金牌得主 Jasper 觀點與 Thang Luong 的觀點相似:IMO 的競賽題目通常包括 6 道,每個問題 7 分。金牌的分數線是 35 分,銀牌 28 分,銅牌 19 分。即使是扣除很少的分數,OpenAI 也可能跌落到銀牌。Jasper 認為從 OpenAI 提交的內容來看,他們的答案很可能會被扣掉一些分數。
陶哲軒(Terence Tao)也指出,盡管題目保持不變,但測試形式至關重要。一名在標準條件下可能無法獲得銅牌的學生,若在修改后的賽制下甚至可能摘金。所以說,OpenAI 是否獲得金牌,現在還是一個問號。
如果真像前文所說的,OpenAI 最終獲得銀牌,這種反轉還是挺殘酷的,畢竟他們大肆宣傳自己的模型是金牌得主水平了。
OpenAI :沒有人通知我們一周后才能公布
對于此事,OpenAI 也做出了回應,OpenAI 研究科學家 Noam Brown 表示,他們是在閉幕式之后發布的結果,他個人提前聯系了一位 IMO 組織者,并根據其建議時間發布結果。同時,Noam Brown 表示,沒有人告訴他們「一周之后」才能發布。
另外,Noam Brown 還表示 IMO 官方幾個月前曾聯系他們,提出在比賽結束后提供 Lean 格式(允許用戶將數學定理和證明以機器可驗證的形式表達)的題目,但 OpenAI 拒絕了。
這算不算回應了前面的質疑:官方要求參賽 AI 公司閉幕式后一周再公布相關結果,但我們根本沒參賽。
這一回應引發了網友的激烈討論,對此你怎么看呢?