谷歌公司近日宣布,正式推出其最新一代人工智能模型Gemini 3,標志著公司在通用人工智能(AGI)研發(fā)道路上邁出關(guān)鍵一步。這款被定位為全球領(lǐng)先的多模態(tài)理解模型,不僅在推理能力上實現(xiàn)突破性進展,更通過集成智能體編程和氛圍編程技術(shù),為用戶提供前所未有的交互體驗。
據(jù)技術(shù)白皮書披露,Gemini 3 Pro在LMArena排行榜以1501分的Elo評分刷新紀錄,在數(shù)學推理基準測試MathArena Apex中取得23.4%的先進水平。該模型在處理復雜科學問題時展現(xiàn)出博士級認知能力,在未借助外部工具的情況下,于"人類終極考試"中取得37.5%的得分率,GPQA Diamond基準測試準確率更達到91.9%。特別值得關(guān)注的是,其多模態(tài)處理能力在MMMU-Pro和Video-MMMU測試中分別獲得81%和87.6%的優(yōu)異成績。
產(chǎn)品團隊著重介紹了新推出的深度思考模式(Deep Think mode),這項增強功能通過擴展推理鏈路長度和優(yōu)化多模態(tài)理解機制,使模型在ARC-AGI-2基準測試中取得45.1%的突破性成績。測試數(shù)據(jù)顯示,該模式在GPQA Diamond測試中的表現(xiàn)較基礎(chǔ)版本提升2個百分點,達到93.8%的準確率,展現(xiàn)出處理新型認知挑戰(zhàn)的顯著優(yōu)勢。
在應(yīng)用場景拓展方面,Gemini 3實現(xiàn)了三大核心突破。學習領(lǐng)域,模型可自動解析手寫菜譜、學術(shù)論文等跨模態(tài)資料,生成交互式學習卡片和可視化圖表。某測試案例中,系統(tǒng)成功將匹克球比賽視頻轉(zhuǎn)化為技術(shù)分析報告,并制定個性化訓練方案。構(gòu)建層面,WebDev Arena排行榜顯示,該模型以1487分的ELO值領(lǐng)跑零樣本生成領(lǐng)域,在終端操作測試Terminal-Bench 2.0中取得54.2%的完成率。
針對開發(fā)者群體,谷歌同步推出智能體開發(fā)平臺Antigravity。該平臺通過專屬界面賦予AI智能體直接操作編輯器、終端和瀏覽器的權(quán)限,實現(xiàn)端到端軟件任務(wù)自主規(guī)劃。實測案例表明,系統(tǒng)可獨立完成航班追蹤應(yīng)用的代碼編寫與瀏覽器驗證流程。平臺整合了計算機使用模型Gemini 2.5 Computer Use和圖像編輯模型Nano Banana,形成完整的開發(fā)工具鏈。
長期規(guī)劃能力測試中,Gemini 3在Vending-Bench 2基準測試中展現(xiàn)卓越表現(xiàn)。通過管理模擬自動售貨機業(yè)務(wù),模型在持續(xù)一年的運營周期內(nèi)保持工具使用一致性,決策回報率較前代提升17%。這項突破使得系統(tǒng)能夠協(xié)助用戶完成整理郵箱、規(guī)劃旅行等復雜多步驟任務(wù),Google AI Ultra訂閱用戶現(xiàn)已可通過Gemini Agent體驗相關(guān)功能。
安全評估體系方面,新模型接受了業(yè)界最嚴苛的測試流程。除內(nèi)部前沿安全框架檢驗外,還邀請英國人工智能安全研究所等第三方機構(gòu)參與評估。測試結(jié)果顯示,模型在抗提示注入攻擊、抵御網(wǎng)絡(luò)濫用等方面表現(xiàn)顯著提升,諂媚性指標下降32%。完整的安全評估報告已通過模型卡形式對外公開。











