編輯:編輯部
谷歌DeepMind奧數(shù)奪金了,得到IMO官方認(rèn)證!新模型Gemini Deep Think僅用自然語言,在4.5小時(shí)攻克了5題,拿下35分。這次,具體解題過程也一并公開了。
今天,谷歌DeepMind正式官宣拿下IMO金牌!
他們憑借Gemini Deep Think(高階版),一個(gè)通用模型,成功破解前5題,斬獲35分(滿分42分)。
而且, AI在極限4.5小時(shí)之內(nèi),就達(dá)到了IMO金牌標(biāo)準(zhǔn)。
最最重要的是,Gemini僅用純自然語言——英語完成了解題。
與OpenAI不同的是,這一結(jié)果得到了IMO組委會(huì)官方認(rèn)證。
Demis Hassabis連發(fā)兩彈,一再強(qiáng)調(diào)「谷歌模型是首個(gè)獲得官方金牌級(jí)別認(rèn)可的AI系統(tǒng)」。
谷歌DeepMind,正式摘金
作為數(shù)學(xué)界的奧林匹克,IMO自1959年以來每年舉辦一次,每年吸引了全球各界優(yōu)秀的學(xué)生參與。
參賽者需在4.5小時(shí)內(nèi)解決6道極具深度的數(shù)學(xué)問題,涵蓋代數(shù)、幾何、組合數(shù)學(xué)和數(shù)論。
而且只有排名前8%的選手才能摘得金牌,象征著無上的學(xué)術(shù)榮耀。
近年來,IMO逐漸成為AI能力的試煉場。數(shù)學(xué)問題不僅需要邏輯推理,還考驗(yàn)創(chuàng)造性思維和嚴(yán)謹(jǐn)性,這對(duì)AI系統(tǒng)提出了極高要求。
2024年,AlphaProof和AlphaGeometry 2破解了6題中的4題,獲得28分,達(dá)到了銀牌水平。
這一突破利用專業(yè)的「形式語言」,表明AI開始接近頂尖人類的數(shù)學(xué)推理能力。
今天,Gemini Deep Think再創(chuàng)里程碑,完美破解5道題,躋身金牌行列。
那么,這款模型是如何做到的呢?
我們?cè)诖舜_認(rèn),谷歌DeepMind已經(jīng)達(dá)成了一個(gè)萬眾矚目的里程碑,在滿分42分的競賽中取得了35分的成績——這足以摘得金牌
他們的解法在諸多方面都堪稱驚艷。IMO的評(píng)委認(rèn)為,這些解法思路清晰、表述精確,且大部分內(nèi)容都簡單易懂。
——IMO主席Gregor Dolinar教授
自然語言解題,端到端推理
AlphaProof和AlphaGeometry 2解決IMO難題前,需要專家將問題翻譯為「形式語言」,如Lean。
而且,證明過程也是如此,且需要兩到三天的計(jì)算時(shí)間。
今年,Gemini Deep Think完全以自然語言端到端運(yùn)行,直接從官方問題描述中生成嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明,并在4.5小時(shí)的比賽時(shí)間限制內(nèi)完成。
Deep Think模式
之所以能夠取得金牌,團(tuán)隊(duì)使用了Gemini Deep Think的高級(jí)版本——一種針對(duì)復(fù)雜問題的增強(qiáng)推理模式。
并且,結(jié)合并行思考技術(shù),允許模型同時(shí)探索多種解題路徑,最終整合出最優(yōu)答案。
這種多線程推理方式,突破了傳統(tǒng)單一線性思考的局限。
為了充分發(fā)揮Deep Think的推理能力,谷歌還對(duì)Gemini進(jìn)行了新穎的強(qiáng)化學(xué)習(xí)訓(xùn)練,讓其利用更多多步推理、問題解決和定理證明數(shù)據(jù)。
谷歌研究團(tuán)隊(duì)還通過以下方式,進(jìn)一步升級(jí)了Gemini版本:
· 更多思考時(shí)間
· 獲取過往問題的一系列高質(zhì)量解決方案集
· 提供解決IMO問題的通用提示與技巧
這種「訓(xùn)練+知識(shí)庫+策略」的組合,讓Gemini在IMO的舞臺(tái)上大放異彩。
接下來,谷歌將向一部分?jǐn)?shù)學(xué)家等測試者提供這個(gè)版本的Deep Think模型,隨后向Google AI Ultra訂閱者推出。
解題過程
那就讓我們來看看,這次谷歌Gemini Deep Think具體的解題過程吧。
官方報(bào)告:https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
對(duì)于第一題這道解析幾何題,模型的解法是設(shè)n>3是一個(gè)給定的整數(shù)。
證明思路是將問題簡化到n=k且所有直線必須是陽光線的這一特定情況。具體來說,設(shè)C(k)表示「P可被k條不同陽光線覆蓋」,定義P_0=ø。
然后模型設(shè)定了一個(gè)引理:在集合L中,所有N_v豎直直線必須是{x=1,2,...,N_v},所有N_H水平線必須是{y=1,2,...,N_H},所有N_D對(duì)角線必須是形如x+y=s的直線,s的取值范圍為n+2?N_D,...,n+1。
然后,模型對(duì)這個(gè)引理進(jìn)行了證明。
接下來,模型證明了定理1:當(dāng)n≥3且0≤k≤n時(shí),若存在一個(gè)由n條不同的直線組成的集合,剛好覆蓋點(diǎn)集P_n,且其中恰好有k條陽光線,那么充要條件便是命題C(k)為真。
接下來,模型對(duì)核心問題C(k)展開了分析:對(duì)于哪些k>0,點(diǎn)集P_k可以恰好被k條陽光線覆蓋。
最終,模型成功證明了C(k)成立的充要條件是k∈{0,1,3},由此證明了唯一可能的陽光線數(shù)量為:0、1或3條。
對(duì)于第二題這道平面幾何題,模型把證明過程分成了五步。
步驟1:確定點(diǎn)P是△AMN的旁心。
步驟2: 求∠EBF。
步驟3: 引入輔助點(diǎn)V及其性質(zhì)。
步驟4: 點(diǎn)V落在外接圓Σ上。
步驟5: 垂心H與切線條件。
最終,模型證明了直線VH是圓Σ在點(diǎn)V處的切線,由此證畢。
第三題是一道函數(shù)題。
在解題過程中,模型將關(guān)鍵步驟分為三步。
首先,是確定Bonza函數(shù)的性質(zhì)與分類。
第二步和第三步中,模型分別完成了上界證明c≤4,以及下界證明c≥4。
最終結(jié)論可得:滿足條件的最小實(shí)數(shù)常數(shù)c為c=4。
第四題是一道數(shù)論題,前提給出了一個(gè)真因數(shù)的定義,對(duì)于一個(gè)正整數(shù)N,除了N本身以外的正整數(shù)因數(shù),都叫作N的真因數(shù)。
數(shù)列中,每一個(gè)數(shù)a_n都是正整數(shù),且都至少有3個(gè)真因數(shù),先找出a_n的三個(gè)最大的真因數(shù),再把它們相加得到下一項(xiàng)a_{n+1}。
問題是,起始值a_1有哪些數(shù)值可以取?
谷歌Gemini Deep Think給出了5個(gè)解題步驟,想要確定a_1取值,前提是讓a_n+1=S(an) 定義的序列是無限正整數(shù)。
步驟1:證明對(duì)所有n,a_n都是偶數(shù)。
步驟?2: 證明對(duì)所有n,a_n都能被3整除。
步驟?3: 當(dāng)6∣N時(shí),分析序列的動(dòng)態(tài)行為。
步驟?4: 研究序列的演變過程并給出對(duì)a_1的限制條件。
步驟?5: 對(duì)起始值a_1進(jìn)行全面刻畫與分類。
整體過程亮點(diǎn),在于化繁為簡,用不變性和增長率把大范圍枚舉壓縮到獨(dú)一無二的固定點(diǎn)。
第五題,是一道組合博弈+不等式分析題。
簡單來說,題干要求:
· 輪到Alice(奇數(shù)回合)時(shí),她必須給出一個(gè)非負(fù)數(shù),使得目前所有數(shù)的總和≤?λ×當(dāng)前回合數(shù);
· 輪到Bazza(偶數(shù)回合)時(shí),他必須給出一個(gè)非負(fù)數(shù),使得目前所有數(shù)的平方和≤當(dāng)前回合數(shù)。
· 誰在自己回合找不到合法數(shù)就輸;若雙方都能一直出數(shù),游戲無勝負(fù)。
題目要找出哪些?λ?能保證Alice必勝,哪些?λ?能保證?Bazza必勝?
Gemini Deep Think在解題時(shí)假設(shè)了2種情況,如下所示:
前者巧妙之處在于,把連續(xù)參數(shù)問題瞬間離散化:只要在λ
而后者關(guān)鍵點(diǎn)是「先蓄力,再一擊致命」,具體來說,讓Alice把總和一次性抬高,讓Bazza下一回合無法去滿足平方和條件,于是當(dāng)場獲勝。
最終,Gemini得出如果λ=1√2時(shí),兩者都不會(huì)贏。只有當(dāng)λ>1√2,Alice獲勝;當(dāng)0<λ<1√2時(shí),Bazza獲勝。
對(duì)此,來自Anthropic AI研究員點(diǎn)評(píng)道,「乍一看,它們的解法比OpenAI要清晰得多」。
團(tuán)隊(duì)介紹
Thang Luong
官博稱,Gemini Deep Think整體技術(shù)方向由Thang Luong帶隊(duì),現(xiàn)任Google DeepMind高級(jí)主任研究員,曾任Google Brain研究員。
他于2016年獲得斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位,在讀博期間開創(chuàng)了深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的應(yīng)用先河。
在Google DeepMind工作期間,Thang Luong構(gòu)建了多個(gè)語言(QANet、ELECTRA)和視覺(UDA、NoisyStudent)領(lǐng)域的尖端模型。
2020年,他推出全球最強(qiáng)聊天機(jī)器人Meena項(xiàng)目,該項(xiàng)目后續(xù)發(fā)展為Google LaMDA、Bard及現(xiàn)Gemini系列,也是經(jīng)典注意力機(jī)制「LuongAttention」的發(fā)明者。
自2022年起,Thang Luong共同領(lǐng)導(dǎo)Bard多模態(tài)功能的開發(fā),并擔(dān)任能解決IMO級(jí)別幾何題的AlphaGeometry項(xiàng)目負(fù)責(zé)人。
所有成員名單如下:
上下滑動(dòng)查看
AI+數(shù)學(xué)未來
谷歌DeepMind長期與數(shù)學(xué)界保持著合作,但AI為數(shù)學(xué)做出貢獻(xiàn)的潛力才剛剛嶄露頭角。
通過訓(xùn)練Gemini學(xué)會(huì)更靈活、更直觀地推理,谷歌正逐步構(gòu)建出能夠解決更復(fù)雜、更前沿?cái)?shù)學(xué)問題的AI。
今年,奪下IMO金牌雖然完全基于Gemini自然語言能力,但團(tuán)隊(duì)也在AlphaGeometry和AlphaProof等形式化系統(tǒng)方面也取得了持續(xù)的進(jìn)展。
谷歌堅(jiān)信,那些能夠?qū)⒘鲿车淖匀徽Z言能力與嚴(yán)謹(jǐn)?shù)耐评砟芰Γòㄐ问交Z言中的可驗(yàn)證推理)相結(jié)合的AI智能體,將成為數(shù)學(xué)家、科學(xué)家、工程師和研究人員不可或缺的工具。
在通往AGI的道路上,AI將推動(dòng)人類知識(shí)的進(jìn)步。
OpenAI回應(yīng)了!
其實(shí),谷歌DeepMind早在7月19日周五下午就拿下了金牌,只是在等內(nèi)部驗(yàn)證流程才未對(duì)外公布。
與之形成鮮明對(duì)比的是,趕在周六凌晨搶發(fā)的OpenAI不僅不講武德,金牌也完全是「自封」的,并未經(jīng)過任何IMO官方的獨(dú)立驗(yàn)證和評(píng)分。
谷歌DeepMind超級(jí)推理團(tuán)隊(duì)的Thang Luong表示:因?yàn)镮MO內(nèi)部有一份官方評(píng)分指南,外界根本無法獲取。
要知道,OpenAI自評(píng)的金牌成績只是剛剛過35分的線而已,如果有微小的扣分,都會(huì)讓成績從金牌跌到銀牌。
而且IMO組委會(huì)還特地明確要求,希望各個(gè)大模型公司在閉幕式一周后再公布成績,不要搶走孩子們的風(fēng)頭。
但OpenAI的Naom Brown卻表示,他們的確尊重了IMO的要求,是等閉幕式之后才發(fā)布的。
就在谷歌DeepMind官宣奪金之后,Naom Brown又雙叒代表OpenAI發(fā)聲了,還是連發(fā)7推。
他首先肯定了GDM的成就,并指出OpenAI與之并行取得的成功,印證了AI進(jìn)化的迅速。
不過,在具體測試中,兩家的方法各有千秋。
在總結(jié)自家模型結(jié)果的思考前,Naom Brown澄清了,早在2個(gè)月前,IMO組委會(huì)曾電郵邀請(qǐng)OpenAI參與基于Lean語言的正式競賽。
然而,當(dāng)時(shí)OpenAI正忙于自然語言通用推理研究(不受Lean約束),就給婉拒了。
他特別強(qiáng)調(diào)了,OpenAI通用模型參賽IMO時(shí),并沒有使用任何RAG等工具。
而且,團(tuán)隊(duì)提交的證明均由三位外部 IMO 獎(jiǎng)牌獲得者進(jìn)行了評(píng)分,并且在正確性上達(dá)成了完全一致的意見。
接下來,Naom再次重申,「OpenAI是在開幕式結(jié)束之后公開的結(jié)果」。
昨日澄清的那一套話,再次公開陳述了一遍。
另一位OpenAI研究員Aidan McLaughlin還譏諷GDM,「他們?yōu)槟P吞峁┥舷挛模儗賻е〕M(jìn)入了考場作弊」。
但現(xiàn)在事實(shí)已經(jīng)擺在眼前——
一邊是谷歌經(jīng)IMO官方認(rèn)證的成績,模型即將在未來可用;一邊是OpenAI不講武德提前邀功,模型是未公開版本,以后很可能也不會(huì)公開。
這一輪過后,OpenAI急功近利的做法,更加失了民心。