谷歌DeepMind在國際數(shù)學(xué)奧林匹克競賽(IMO)中取得了歷史性的突破,其AI系統(tǒng)Gemini Deep Think成功解答了前五道題目,以35分的優(yōu)異成績榮獲金牌,距離滿分42分僅差7分。這一壯舉標(biāo)志著AI在解決復(fù)雜數(shù)學(xué)問題上的能力邁上了新的臺階。
DeepMind此次的勝利尤為引人注目,因?yàn)镚emini Deep Think是在嚴(yán)格的4.5小時(shí)時(shí)間限制內(nèi)完成所有題目的,與人類參賽者面對的挑戰(zhàn)完全一致。更令人稱奇的是,該AI系統(tǒng)完全依賴自然語言——英語,而無需任何形式化語言的輔助,這與此前AI在數(shù)學(xué)競賽中的表現(xiàn)形成了鮮明對比。
IMO自1959年創(chuàng)辦以來,一直是全球頂尖數(shù)學(xué)人才的競技場。每年,來自世界各地的優(yōu)秀學(xué)生匯聚一堂,在4.5小時(shí)內(nèi)解答六道涵蓋代數(shù)、幾何、組合數(shù)學(xué)和數(shù)論等領(lǐng)域的深度數(shù)學(xué)問題。只有表現(xiàn)最突出的8%選手才能獲得金牌,這一榮譽(yù)象征著數(shù)學(xué)領(lǐng)域的至高成就。
近年來,隨著AI技術(shù)的飛速發(fā)展,IMO逐漸成為檢驗(yàn)AI能力的試驗(yàn)場。數(shù)學(xué)問題不僅要求邏輯推理,還考驗(yàn)創(chuàng)造性思維和嚴(yán)謹(jǐn)性,這對AI系統(tǒng)提出了巨大挑戰(zhàn)。去年,AlphaProof和AlphaGeometry 2在解答六道題中的四道時(shí)展現(xiàn)出了強(qiáng)大的實(shí)力,獲得了銀牌,這標(biāo)志著AI開始接近頂尖人類的數(shù)學(xué)推理水平。
然而,Gemini Deep Think的表現(xiàn)更為出色。它不僅成功解答了五道題,而且解題過程得到了IMO組委會的官方認(rèn)證,這使其成為了首個(gè)獲得官方金牌級別認(rèn)可的AI系統(tǒng)。DeepMind的高級主任研究員Thang Luong領(lǐng)導(dǎo)的團(tuán)隊(duì)通過引入Deep Think的高級版本,結(jié)合并行思考技術(shù),使模型能夠同時(shí)探索多種解題路徑,最終整合出最優(yōu)答案。
Gemini Deep Think的解題過程堪稱驚艷。以第一道解析幾何題為例,模型通過設(shè)定引理和證明定理,成功簡化了問題,并得出了唯一可能的陽光線數(shù)量為0、1或3條的結(jié)論。對于第二道平面幾何題,模型則將證明過程分為了五個(gè)清晰的步驟,最終證明了直線VH是圓Σ在點(diǎn)V處的切線。在解答第三道函數(shù)題時(shí),模型確定了Bonza函數(shù)的性質(zhì)與分類,并完成了上界和下界的證明。數(shù)論題和組合博弈題同樣被Gemini Deep Think以嚴(yán)謹(jǐn)?shù)倪壿嫼颓逦牟襟E一一攻克。
DeepMind的這一成就不僅是對AI能力的巨大提升,也為數(shù)學(xué)界帶來了新的希望。通過訓(xùn)練Gemini學(xué)會更靈活、更直觀的推理,谷歌正逐步構(gòu)建出能夠解決更復(fù)雜、更前沿?cái)?shù)學(xué)問題的AI。這一突破不僅展示了AI在數(shù)學(xué)領(lǐng)域的潛力,也為未來AI與數(shù)學(xué)家、科學(xué)家等專業(yè)人士的合作奠定了堅(jiān)實(shí)的基礎(chǔ)。
然而,值得注意的是,OpenAI在DeepMind官宣之前曾搶先發(fā)布了自己的AI系統(tǒng)在IMO中的表現(xiàn),并自稱獲得了金牌。然而,這一成績并未經(jīng)過IMO官方的獨(dú)立驗(yàn)證和評分,引發(fā)了不少爭議。相比之下,DeepMind的金牌成績得到了官方的正式認(rèn)證,更加令人信服。
OpenAI的研究員對DeepMind的成就表示了肯定,但同時(shí)也強(qiáng)調(diào)了自己在通用自然語言推理方面所取得的進(jìn)展。盡管雙方在方法上各有千秋,但DeepMind的官方認(rèn)證成績無疑為其在這場AI數(shù)學(xué)競賽中贏得了更多的掌聲和認(rèn)可。