當ChatGPT掀起全球AI浪潮時,谷歌一度被視為行動遲緩的科技巨頭。然而短短一年間,這家搜索引擎公司憑借Veo 3視頻生成模型、Nano Banana圖像編輯工具和Genie 3世界模擬引擎的連續發布,重新站在了技術變革的前沿。今日凌晨,谷歌正式推出新一代AI模型Gemini 3,在多模態理解、復雜推理和自主任務執行三大領域實現突破性進展,多項基準測試成績刷新行業紀錄。
在推理能力方面,Gemini 3 Pro在開放評測平臺LMArena以1501分登頂通用模型榜單,在強調事實準確性的SimpleQA Verified測試中達到72.1%的準確率。面對人類終極考卷Humanity’s Last Exam,該模型在不借助外部工具的情況下取得37.5%的成績,啟用深度思考模式后更躍升至41%。在博士級科學問答GPQA Diamond測試中,其得分從基礎版的91.9%提升至深度思考模式的93.8%,數學難題集MathArena Apex的23.4%紀錄則重新定義了數學推理基準。這些突破性表現尤其值得關注,因為測試任務均屬于傳統擴展法則(scaling law)被認為遭遇瓶頸的領域,而Gemini 3在ARC-AGI測試中實現的近10倍性能躍升,徹底打破了行業對推理能力發展的悲觀預期。
多模態處理領域,Gemini 3展現出前所未有的整合能力。在跨學科圖像理解測試MMMU-Pro和視頻理解測試Video-MMMU中,該模型分別取得81%和87.6%的成績,刷新主流多模態模型紀錄。其核心突破在于將視覺理解與邏輯推理融合為統一能力——面對手寫符號混雜、排版混亂的筆記,模型不僅能精準識別文字,還能自動消除符號歧義,輸出結果穩定性超越專業受訓人員。這種能力并非來自圖像或視頻專項模型,而是原生集成于通用架構之中,標志著多模態處理從附加功能轉變為模型核心能力。
自主任務執行(Agent)能力測試中,Gemini 3 Pro在工具調用測試t2-bench中取得85.4%的頂尖成績,展現真實軟件環境中的API調用、文件處理和系統命令執行能力。在模擬自動售貨機全年運營的Vending-Bench 2測試中,模型以5478分顯著領先同級,證明其長期任務執行穩定性。Unix環境自動化修復測試Terminal-Bench 2.0中,54.2%的得分驗證了模型從理解指令到實際修復的全流程能力。這些突破使Gemini 3成為首個在推理、多模態和Agent三大領域同時取得顯著優勢的通用模型。
產品層面,谷歌將模型能力轉化為實際交互革新。新版Gemini應用轉型為模型驅動的工作空間,用戶可通過自然語言在Canvas界面構建完整程序原型,模型自動完成規劃、編碼、界面生成和調試全流程。生成式界面(Generative Interfaces)實驗項目則開創全新交互范式:用戶請求直接生成結構化視覺界面,動態視圖(Dynamic View)可實時創建交互式計算器、圖形模擬器和工具面板。這些功能已部分集成至搜索AI模式,用戶可直接在搜索結果中操作動態布局和實時模擬組件。
針對企業用戶,谷歌推出Antigravity開發環境,構建首個以智能體為核心的編程平臺。多個Gemini 3驅動的代理可同時在編輯器、終端和瀏覽器協同工作,自動生成代碼、執行命令、驗證結果并記錄開發過程。在消費端,Gemini Agent實驗功能已能連接Gmail、日歷等Workspace應用,自動整理郵箱、規劃任務,甚至根據郵件內容完成租車預訂和酒店比價等復雜操作。
這場技術突破的背后,是谷歌持續一年的戰略重組。公司合并Google Brain與DeepMind團隊,集中頂級芯片資源和工程力量打造統一模型架構。CEO Sundar Pichai強調的"AI優先第二階段",標志著谷歌從搜索公司向下一代計算平臺構建者的轉型。搜索、Android、Chrome等核心業務圍繞Gemini重構,2025年近900億美元資本支出全部投向AI基礎設施。這種戰略聚焦已見成效:Veo 3的視頻建模、Nano Banana的圖像編輯和Genie 3的世界模擬技術,均源自谷歌長期積累的論文體系系統性落地。











