日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

首個(gè)IMO金牌AI誕生!谷歌Gemini碾碎奧數(shù)神話

   時(shí)間:2025-07-22 21:22:02 來源:新智元編輯:快訊團(tuán)隊(duì) IP:北京 發(fā)表評(píng)論無障礙通道
 

編輯:編輯部

谷歌DeepMind奧數(shù)奪金了,得到IMO官方認(rèn)證!新模型Gemini Deep Think僅用自然語言,在4.5小時(shí)攻克了5題,拿下35分。這次,具體解題過程也一并公開了。

今天,谷歌DeepMind正式官宣拿下IMO金牌!

他們憑借Gemini Deep Think(高階版),一個(gè)通用模型,成功破解前5題,斬獲35分(滿分42分)。

而且, AI在極限4.5小時(shí)之內(nèi),就達(dá)到了IMO金牌標(biāo)準(zhǔn)。

最最重要的是,Gemini僅用純自然語言——英語完成了解題。

與OpenAI不同的是,這一結(jié)果得到了IMO組委會(huì)官方認(rèn)證。

Demis Hassabis連發(fā)兩彈,一再強(qiáng)調(diào)「谷歌模型是首個(gè)獲得官方金牌級(jí)別認(rèn)可的AI系統(tǒng)」。

谷歌DeepMind,正式摘金

作為數(shù)學(xué)界的奧林匹克,IMO自1959年以來每年舉辦一次,每年吸引了全球各界優(yōu)秀的學(xué)生參與。

參賽者需在4.5小時(shí)內(nèi)解決6道極具深度的數(shù)學(xué)問題,涵蓋代數(shù)、幾何、組合數(shù)學(xué)和數(shù)論。

而且只有排名前8%的選手才能摘得金牌,象征著無上的學(xué)術(shù)榮耀。

近年來,IMO逐漸成為AI能力的試煉場。數(shù)學(xué)問題不僅需要邏輯推理,還考驗(yàn)創(chuàng)造性思維和嚴(yán)謹(jǐn)性,這對(duì)AI系統(tǒng)提出了極高要求。

2024年,AlphaProof和AlphaGeometry 2破解了6題中的4題,獲得28分,達(dá)到了銀牌水平。

這一突破利用專業(yè)的「形式語言」,表明AI開始接近頂尖人類的數(shù)學(xué)推理能力。

今天,Gemini Deep Think再創(chuàng)里程碑,完美破解5道題,躋身金牌行列。

那么,這款模型是如何做到的呢?

我們?cè)诖舜_認(rèn),谷歌DeepMind已經(jīng)達(dá)成了一個(gè)萬眾矚目的里程碑,在滿分42分的競賽中取得了35分的成績——這足以摘得金牌

他們的解法在諸多方面都堪稱驚艷。IMO的評(píng)委認(rèn)為,這些解法思路清晰、表述精確,且大部分內(nèi)容都簡單易懂。

——IMO主席Gregor Dolinar教授

自然語言解題,端到端推理

AlphaProof和AlphaGeometry 2解決IMO難題前,需要專家將問題翻譯為「形式語言」,如Lean。

而且,證明過程也是如此,且需要兩到三天的計(jì)算時(shí)間。

今年,Gemini Deep Think完全以自然語言端到端運(yùn)行,直接從官方問題描述中生成嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明,并在4.5小時(shí)的比賽時(shí)間限制內(nèi)完成。

Deep Think模式

之所以能夠取得金牌,團(tuán)隊(duì)使用了Gemini Deep Think的高級(jí)版本——一種針對(duì)復(fù)雜問題的增強(qiáng)推理模式。

并且,結(jié)合并行思考技術(shù),允許模型同時(shí)探索多種解題路徑,最終整合出最優(yōu)答案。

這種多線程推理方式,突破了傳統(tǒng)單一線性思考的局限。

為了充分發(fā)揮Deep Think的推理能力,谷歌還對(duì)Gemini進(jìn)行了新穎的強(qiáng)化學(xué)習(xí)訓(xùn)練,讓其利用更多多步推理、問題解決和定理證明數(shù)據(jù)。

谷歌研究團(tuán)隊(duì)還通過以下方式,進(jìn)一步升級(jí)了Gemini版本:

· 更多思考時(shí)間

· 獲取過往問題的一系列高質(zhì)量解決方案集

· 提供解決IMO問題的通用提示與技巧

這種「訓(xùn)練+知識(shí)庫+策略」的組合,讓Gemini在IMO的舞臺(tái)上大放異彩。

接下來,谷歌將向一部分?jǐn)?shù)學(xué)家等測試者提供這個(gè)版本的Deep Think模型,隨后向Google AI Ultra訂閱者推出。

解題過程

那就讓我們來看看,這次谷歌Gemini Deep Think具體的解題過程吧。

官方報(bào)告:https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf

對(duì)于第一題這道解析幾何題,模型的解法是設(shè)n>3是一個(gè)給定的整數(shù)。

證明思路是將問題簡化到n=k且所有直線必須是陽光線的這一特定情況。具體來說,設(shè)C(k)表示「P可被k條不同陽光線覆蓋」,定義P_0=ø。

然后模型設(shè)定了一個(gè)引理:在集合L中,所有N_v豎直直線必須是{x=1,2,...,N_v},所有N_H水平線必須是{y=1,2,...,N_H},所有N_D對(duì)角線必須是形如x+y=s的直線,s的取值范圍為n+2?N_D,...,n+1。

然后,模型對(duì)這個(gè)引理進(jìn)行了證明。

接下來,模型證明了定理1:當(dāng)n≥3且0≤k≤n時(shí),若存在一個(gè)由n條不同的直線組成的集合,剛好覆蓋點(diǎn)集P_n,且其中恰好有k條陽光線,那么充要條件便是命題C(k)為真。

接下來,模型對(duì)核心問題C(k)展開了分析:對(duì)于哪些k>0,點(diǎn)集P_k可以恰好被k條陽光線覆蓋。

最終,模型成功證明了C(k)成立的充要條件是k∈{0,1,3},由此證明了唯一可能的陽光線數(shù)量為:0、1或3條。

對(duì)于第二題這道平面幾何題,模型把證明過程分成了五步。

步驟1:確定點(diǎn)P是△AMN的旁心。

步驟2: 求∠EBF。

步驟3: 引入輔助點(diǎn)V及其性質(zhì)。

步驟4: 點(diǎn)V落在外接圓Σ上。

步驟5: 垂心H與切線條件。

最終,模型證明了直線VH是圓Σ在點(diǎn)V處的切線,由此證畢。

第三題是一道函數(shù)題。

在解題過程中,模型將關(guān)鍵步驟分為三步。

首先,是確定Bonza函數(shù)的性質(zhì)與分類。

第二步和第三步中,模型分別完成了上界證明c≤4,以及下界證明c≥4。

最終結(jié)論可得:滿足條件的最小實(shí)數(shù)常數(shù)c為c=4。

第四題是一道數(shù)論題,前提給出了一個(gè)真因數(shù)的定義,對(duì)于一個(gè)正整數(shù)N,除了N本身以外的正整數(shù)因數(shù),都叫作N的真因數(shù)。

數(shù)列中,每一個(gè)數(shù)a_n都是正整數(shù),且都至少有3個(gè)真因數(shù),先找出a_n的三個(gè)最大的真因數(shù),再把它們相加得到下一項(xiàng)a_{n+1}。

問題是,起始值a_1有哪些數(shù)值可以取?

谷歌Gemini Deep Think給出了5個(gè)解題步驟,想要確定a_1取值,前提是讓a_n+1=S(an) 定義的序列是無限正整數(shù)。

步驟1:證明對(duì)所有n,a_n都是偶數(shù)。

步驟?2: 證明對(duì)所有n,a_n都能被3整除。

步驟?3: 當(dāng)6∣N時(shí),分析序列的動(dòng)態(tài)行為。

步驟?4: 研究序列的演變過程并給出對(duì)a_1的限制條件。

步驟?5: 對(duì)起始值a_1進(jìn)行全面刻畫與分類。

整體過程亮點(diǎn),在于化繁為簡,用不變性和增長率把大范圍枚舉壓縮到獨(dú)一無二的固定點(diǎn)。

第五題,是一道組合博弈+不等式分析題。

簡單來說,題干要求:

· 輪到Alice(奇數(shù)回合)時(shí),她必須給出一個(gè)非負(fù)數(shù),使得目前所有數(shù)的總和≤?λ×當(dāng)前回合數(shù);

· 輪到Bazza(偶數(shù)回合)時(shí),他必須給出一個(gè)非負(fù)數(shù),使得目前所有數(shù)的平方和≤當(dāng)前回合數(shù)。

· 誰在自己回合找不到合法數(shù)就輸;若雙方都能一直出數(shù),游戲無勝負(fù)。

題目要找出哪些?λ?能保證Alice必勝,哪些?λ?能保證?Bazza必勝?

Gemini Deep Think在解題時(shí)假設(shè)了2種情況,如下所示:

前者巧妙之處在于,把連續(xù)參數(shù)問題瞬間離散化:只要在λ

而后者關(guān)鍵點(diǎn)是「先蓄力,再一擊致命」,具體來說,讓Alice把總和一次性抬高,讓Bazza下一回合無法去滿足平方和條件,于是當(dāng)場獲勝。

最終,Gemini得出如果λ=1√2時(shí),兩者都不會(huì)贏。只有當(dāng)λ>1√2,Alice獲勝;當(dāng)0<λ<1√2時(shí),Bazza獲勝。

對(duì)此,來自Anthropic AI研究員點(diǎn)評(píng)道,「乍一看,它們的解法比OpenAI要清晰得多」。

團(tuán)隊(duì)介紹

Thang Luong

官博稱,Gemini Deep Think整體技術(shù)方向由Thang Luong帶隊(duì),現(xiàn)任Google DeepMind高級(jí)主任研究員,曾任Google Brain研究員。

他于2016年獲得斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位,在讀博期間開創(chuàng)了深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的應(yīng)用先河。

在Google DeepMind工作期間,Thang Luong構(gòu)建了多個(gè)語言(QANet、ELECTRA)和視覺(UDA、NoisyStudent)領(lǐng)域的尖端模型。

2020年,他推出全球最強(qiáng)聊天機(jī)器人Meena項(xiàng)目,該項(xiàng)目后續(xù)發(fā)展為Google LaMDA、Bard及現(xiàn)Gemini系列,也是經(jīng)典注意力機(jī)制「LuongAttention」的發(fā)明者。

自2022年起,Thang Luong共同領(lǐng)導(dǎo)Bard多模態(tài)功能的開發(fā),并擔(dān)任能解決IMO級(jí)別幾何題的AlphaGeometry項(xiàng)目負(fù)責(zé)人。

所有成員名單如下:

上下滑動(dòng)查看

AI+數(shù)學(xué)未來

谷歌DeepMind長期與數(shù)學(xué)界保持著合作,但AI為數(shù)學(xué)做出貢獻(xiàn)的潛力才剛剛嶄露頭角。

通過訓(xùn)練Gemini學(xué)會(huì)更靈活、更直觀地推理,谷歌正逐步構(gòu)建出能夠解決更復(fù)雜、更前沿?cái)?shù)學(xué)問題的AI。

今年,奪下IMO金牌雖然完全基于Gemini自然語言能力,但團(tuán)隊(duì)也在AlphaGeometry和AlphaProof等形式化系統(tǒng)方面也取得了持續(xù)的進(jìn)展。

谷歌堅(jiān)信,那些能夠?qū)⒘鲿车淖匀徽Z言能力與嚴(yán)謹(jǐn)?shù)耐评砟芰Γòㄐ问交Z言中的可驗(yàn)證推理)相結(jié)合的AI智能體,將成為數(shù)學(xué)家、科學(xué)家、工程師和研究人員不可或缺的工具。

在通往AGI的道路上,AI將推動(dòng)人類知識(shí)的進(jìn)步。

OpenAI回應(yīng)了!

其實(shí),谷歌DeepMind早在7月19日周五下午就拿下了金牌,只是在等內(nèi)部驗(yàn)證流程才未對(duì)外公布。

與之形成鮮明對(duì)比的是,趕在周六凌晨搶發(fā)的OpenAI不僅不講武德,金牌也完全是「自封」的,并未經(jīng)過任何IMO官方的獨(dú)立驗(yàn)證和評(píng)分。

谷歌DeepMind超級(jí)推理團(tuán)隊(duì)的Thang Luong表示:因?yàn)镮MO內(nèi)部有一份官方評(píng)分指南,外界根本無法獲取。

要知道,OpenAI自評(píng)的金牌成績只是剛剛過35分的線而已,如果有微小的扣分,都會(huì)讓成績從金牌跌到銀牌。

而且IMO組委會(huì)還特地明確要求,希望各個(gè)大模型公司在閉幕式一周后再公布成績,不要搶走孩子們的風(fēng)頭。

但OpenAI的Naom Brown卻表示,他們的確尊重了IMO的要求,是等閉幕式之后才發(fā)布的。

就在谷歌DeepMind官宣奪金之后,Naom Brown又雙叒代表OpenAI發(fā)聲了,還是連發(fā)7推。

他首先肯定了GDM的成就,并指出OpenAI與之并行取得的成功,印證了AI進(jìn)化的迅速。

不過,在具體測試中,兩家的方法各有千秋。

在總結(jié)自家模型結(jié)果的思考前,Naom Brown澄清了,早在2個(gè)月前,IMO組委會(huì)曾電郵邀請(qǐng)OpenAI參與基于Lean語言的正式競賽。

然而,當(dāng)時(shí)OpenAI正忙于自然語言通用推理研究(不受Lean約束),就給婉拒了。

他特別強(qiáng)調(diào)了,OpenAI通用模型參賽IMO時(shí),并沒有使用任何RAG等工具。

而且,團(tuán)隊(duì)提交的證明均由三位外部 IMO 獎(jiǎng)牌獲得者進(jìn)行了評(píng)分,并且在正確性上達(dá)成了完全一致的意見。

接下來,Naom再次重申,「OpenAI是在開幕式結(jié)束之后公開的結(jié)果」。

昨日澄清的那一套話,再次公開陳述了一遍。

另一位OpenAI研究員Aidan McLaughlin還譏諷GDM,「他們?yōu)槟P吞峁┥舷挛模儗賻е〕M(jìn)入了考場作弊」。

但現(xiàn)在事實(shí)已經(jīng)擺在眼前——

一邊是谷歌經(jīng)IMO官方認(rèn)證的成績,模型即將在未來可用;一邊是OpenAI不講武德提前邀功,模型是未公開版本,以后很可能也不會(huì)公開。

這一輪過后,OpenAI急功近利的做法,更加失了民心。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 财经| 新营市| 陈巴尔虎旗| 军事| 类乌齐县| 车致| 始兴县| 康乐县| 博客| 雷波县| 昆明市| 岳阳县| 紫阳县| 荃湾区| 凌云县| 永川市| 永安市| 女性| 葵青区| 会同县| 全南县| 兰州市| 防城港市| 成都市| 开原市| 资兴市| 葫芦岛市| 广平县| 油尖旺区| 永川市| 天台县| 天门市| 抚远县| 永善县| 武穴市| 揭西县| 哈密市| 宕昌县| 江孜县| 易门县| 全南县|