谷歌在近日悄然推出了Gemini 2.5 Pro的重大更新版本——Gemini 2.5 Pro Preview 06-05 Thinking,這一舉動在AI界掀起了波瀾。據悉,新版本在多項基準測試中表現卓越,特別是在推理能力、科學以及編程能力方面,成功超越了OpenAI的o3、DeepSeek R1和Claude Opus 4等強勁對手。
據谷歌官方透露,Gemini 2.5 Pro Preview 06-05 Thinking在編程能力上尤為突出,領跑包括Aider Polyglot在內的高難度編程基準測試。這一成就不僅彰顯了谷歌在AI技術領域的深厚積累,也預示著大模型迭代速度的進一步加快。
在價格策略上,新版本延續了先前的定價方案,即每百萬token輸入(無緩存)費用為1.25美元,輸出費用為10美元。盡管這一價格相較于部分競爭對手仍顯偏高,但考慮到其卓越的性能表現,仍吸引了大量開發者和用戶的關注。
谷歌CEO桑達爾·皮查伊在海外社交媒體上親自宣布了這一消息,他表示:“我們最新的Gemini 2.5 Pro更新現已發布預覽版……我們聽取了用戶的反饋,并對回答的風格和結構進行了改進。大家可以在AI Studio、Vertex AI平臺和Gemini app中進行試用。正式版即將推出!”
在基準測試方面,Gemini 2.5 Pro Preview 06-05 Thinking的表現堪稱驚艷。它不僅在文本、視覺、網頁開發、編程、數學、創意、多輪對話、指令跟隨及長查詢等多個類別中拔得頭籌,還在綜合榜單上以顯著優勢領先。特別是在WebDevArena測試中,其Elo分數高達1443分,較此前版本有了大幅提升。
盡管新版本在多項測試中表現出色,但在某些特定領域仍有提升空間。例如,在測試數學能力的AIME 2025和測試代碼生成的LiveCodeBench上,它并未超過OpenAI的o3和o4-mini。不過,這并不影響其作為當前最強大的AI模型之一的地位。
隨著Gemini 2.5 Pro Preview 06-05 Thinking的推出,開發者們已經迫不及待地開始嘗試這一新版本。從圖像生成到編程應用,新版本都展現出了驚人的能力和創造力。例如,有開發者使用Gemini生成了一張生動的獅子特寫照片,還有開發者要求其編寫了一個模擬隨機車流量單行道上的交通信號燈運作過程的Python程序,結果都令人驚嘆不已。
這一系列卓越的表現無疑進一步鞏固了谷歌在AI領域的領先地位。隨著大模型迭代速度的加快,未來的AI較量將更加激烈和精彩。而Gemini 2.5 Pro Preview 06-05 Thinking的推出,無疑為這一競爭注入了新的活力和動力。