谷歌公司近日宣布,其最新人工智能模型Gemini 3正式面向全球用戶開放體驗。這款模型在推理能力、多模態理解和復雜任務規劃方面實現重大突破,標志著AI技術進入全新發展階段。作為繼2.5 Pro之后的迭代產品,Gemini 3在多項核心基準測試中刷新紀錄,展現出超越前代的綜合性能。
在推理能力驗證方面,Gemini 3 Pro以1501分的Elo評分登頂LMArena排行榜,在"人類終極考試"中取得37.5%的未工具輔助得分率,GPQA Diamond測試準確率達91.9%。數學領域表現尤為突出,MathArena Apex測試以23.4%的得分率確立行業新標桿。多模態處理能力同樣亮眼,MMMU-Pro和Video-MMMU測試分別獲得81%和87.6%的成績,SimpleQA Verified基準測試以72.1%的準確率刷新事實核查紀錄。
深度思考模式(Deep Think mode)的引入成為技術亮點。該模式在"人類終極考試"中將得分率提升至41.0%,GPQA Diamond測試準確率達93.8%,ARC-AGI-2基準測試在啟用代碼執行后取得45.1%的突破性成績。這種跨越式提升使模型能夠處理更復雜的邏輯推理和開放域問題,為科研、編程等高階應用提供強大支持。
多模態整合能力實現質的飛躍。模型可同步處理文本、圖像、視頻、音頻和代碼五種數據類型,支持100萬令牌的上下文窗口。實際應用場景中,用戶可上傳學術論文、視頻教程或運動錄像,模型能自動生成交互式學習卡片、可視化圖表或訓練計劃。在烹飪領域,系統可識別多語言手寫菜譜并整理成數字化食譜;運動分析功能則能通過視頻識別技術短板,制定個性化訓練方案。
開發者生態迎來重大升級。Google AI Studio、Vertex AI和全新智能體開發平臺Antigravity同步開放Gemini 3接入。在WebDev Arena排行榜上,該模型以1487的Elo評分領跑零樣本生成領域,Terminal-Bench 2.0終端操作測試取得54.2%的成績,SWE-bench Verified編程智能體測試準確率達76.2%。第三方平臺方面,Cursor、GitHub、JetBrains等已完成集成,支持開發者構建更復雜的交互界面。
智能體規劃能力取得實質性進展。在Vending-Bench 2模擬自動售貨機業務測試中,Gemini 3成功管理全年運營周期,保持工具使用和決策一致性,實現顯著高于其他模型的回報率。實際應用場景包括郵件分類、旅行規劃等復雜流程,用戶可授權模型自主完成多步驟任務。Google AI Ultra訂閱用戶現已可通過Gemini Agent體驗智能體服務,該功能將逐步擴展至更多谷歌產品。
安全體系構建成為研發重點。Gemini 3通過谷歌前沿安全框架的全面評估,在抗提示注入、網絡攻擊防護等方面表現優異。模型諂媚性顯著降低,決策獨立性增強。研發團隊與英國人工智能安全研究所等機構展開合作,獲得Apollo、Vaultis等第三方安全機構認證,相關技術細節已公開在模型卡文檔中。
用戶開放計劃分階段實施:Gemini應用用戶、Search AI Mode訂閱者及AI Studio開發者可立即體驗基礎功能;企業用戶通過Vertex AI和Gemini Enterprise獲得完整服務;深度思考模式預計在未來幾周內向Ultra訂閱用戶開放。谷歌透露,Gemini 3系列后續模型正在研發中,將持續拓展AI應用邊界。











