在人工智能領(lǐng)域持續(xù)創(chuàng)新的浪潮中,谷歌正式推出了其最新一代多模態(tài)大模型——Gemini 3。這款被谷歌首席執(zhí)行官桑達(dá)爾·皮查伊譽(yù)為“迄今最智能的模型”一經(jīng)發(fā)布,便引發(fā)了行業(yè)廣泛關(guān)注。不同于此前多次“預(yù)告未至”的波折,此次發(fā)布標(biāo)志著谷歌在AI技術(shù)布局上邁出了關(guān)鍵一步。
技術(shù)突破方面,Gemini 3采用稀疏混合專家架構(gòu)(sparse MoE),在多項(xiàng)基準(zhǔn)測試中展現(xiàn)卓越性能。LMArena排行榜上,該模型以1501分登頂;在測試博士級推理能力的“人類終極考試”中,未使用工具情況下取得37.5%準(zhǔn)確率;GPQA Diamond科學(xué)問題測試得分高達(dá)91.9%,MathArena Apex數(shù)學(xué)難題求解測試更以23.4%的成績刷新紀(jì)錄。多模態(tài)能力持續(xù)領(lǐng)跑,MMMU-Pro測試得分81%,視頻理解測試Video-MMMU達(dá)87.6%,均顯著優(yōu)于同類模型。
針對此前大模型普遍存在的“阿諛奉承”問題,谷歌著重優(yōu)化了模型響應(yīng)機(jī)制。新版本被設(shè)計(jì)為“更聰明、簡潔、直接”,能夠提供基于事實(shí)的客觀回應(yīng)而非迎合用戶偏好。這一改進(jìn)在SimpleQA Verified事實(shí)準(zhǔn)確性測試中得到驗(yàn)證,Gemini 3 Pro取得72.1%的優(yōu)異成績,較前代提升顯著。
應(yīng)用場景拓展成為本次發(fā)布的另一重點(diǎn)。在學(xué)習(xí)領(lǐng)域,依托100萬token上下文窗口,模型可處理長篇學(xué)術(shù)文獻(xiàn)與多語言視頻內(nèi)容,支持將手寫食譜轉(zhuǎn)化為數(shù)字化烹飪指南,或?qū)⒖蒲姓撐霓D(zhuǎn)換為交互式學(xué)習(xí)卡片。編程能力方面,WebDev Arena排行榜1487分、SWE-bench Verified 76.2%的得分,以及LiveCodeBench Pro測試中2439分的絕對優(yōu)勢,印證了其在代碼生成與智能體編程領(lǐng)域的領(lǐng)先地位。普林斯頓大學(xué)博士柴文浩評價(jià)稱,該模型在編程任務(wù)上展現(xiàn)出“代際領(lǐng)先”的突破性進(jìn)展。
為支撐模型落地,谷歌同步推出Antigravity開發(fā)平臺。該平臺通過智能體界面整合編輯器、終端與瀏覽器功能,支持自主規(guī)劃復(fù)雜軟件任務(wù)并驗(yàn)證代碼質(zhì)量。內(nèi)置的Computer Use瀏覽器控制模型與Nano Banana圖像編輯模型,構(gòu)建起完整的智能開發(fā)生態(tài)。針對長期任務(wù)規(guī)劃需求,Vending-Bench 2測試顯示,Gemini 3在模擬經(jīng)營場景中展現(xiàn)出持續(xù)穩(wěn)定的決策能力,相關(guān)功能已通過Gemini Agent向AI Ultra訂閱用戶開放。
技術(shù)底座層面,Gemini 3基于谷歌第六代TPU芯片Trillium訓(xùn)練。該芯片單顆提供512TOPS算力,性能較前代提升4倍,能耗降低67%。這種從芯片到模型的垂直整合優(yōu)勢,使谷歌在訓(xùn)練效率與成本控制上形成獨(dú)特競爭力。生態(tài)整合方面,新模型已全面接入搜索AI模式、Gemini應(yīng)用、AI Studio及Vertex AI平臺,搜索服務(wù)通過動態(tài)生成交互式視覺布局與模擬器,將信息獲取升級為深度理解體驗(yàn)。
DeepMind首席執(zhí)行官德米斯·哈薩比斯透露,Gemini 3的推理能力實(shí)現(xiàn)“顯著跨越”,但谷歌的終極目標(biāo)遠(yuǎn)不止于此。通過與Gmail、日歷等核心服務(wù)的深度聯(lián)動,AI助手正在向“不可或缺”的個(gè)性化方向發(fā)展。這種以生態(tài)壁壘構(gòu)建技術(shù)護(hù)城河的策略,或?qū)⒅匦露x通用人工智能時(shí)代的競爭格局。











