在谷歌I/O開發(fā)者大會的凌晨時段,一場關(guān)于人工智能(AI)的盛宴拉開了帷幕。谷歌CEO桑達爾·皮查伊攜公司高管們,在不到兩小時的演講中,頻繁提及“Gemini”和“AI”,分別高達95次和92次,彰顯了谷歌在AI領(lǐng)域的雄心壯志。
在模型升級方面,谷歌推出了Gemini 2.5 Pro,新增原生音頻輸出、深度思考模式和高安全防護等功能。同時,視頻模型Veo 2也加入了原生音頻生成能力,而Gemini 2.5 Flash則在推理、編程和長上下文處理上實現(xiàn)了顯著提升。谷歌還發(fā)布了Gemini Diffusion擴散語言模型、Veo 3視頻生成模型和Imagen 4圖像生成模型,進一步豐富了其AI產(chǎn)品線。
為了滿足不同用戶的需求,谷歌推出了全新的Gemini訂閱計劃。AI Pro用戶每月支付19.99美元,即可使用Veo 2和Gemini 2.5 Pro等入門級產(chǎn)品;而AI Ultra用戶則需支付249.99美元,以獲得Veo 3的無限訪問權(quán)限和Gemini 2.5 Pro的深度思考模式等高級功能。
谷歌DeepMind的創(chuàng)始人戴密斯·哈薩比斯表示,Gemini的目標是成為一個世界模型,這是開發(fā)新型、更通用、更有用的AI助手的關(guān)鍵一步。在展示的一個自行車維修場景中,Gemini不僅能夠查詢維修手冊、搜索視頻教程,還能撥打電話、查詢零件庫存并幫助用戶下單,展現(xiàn)了其強大的多功能性。
谷歌還推出了AI Mode,旨在顛覆傳統(tǒng)的搜索體驗。根據(jù)用戶的需求,AI Mode可以動態(tài)調(diào)整答案生成界面,包括圖表、店鋪列表等。在購物場景中,AI Mode能定制購物界面,提供虛擬試穿、追蹤預(yù)期價位和代理結(jié)賬等功能,同時集成了視覺搜索,用戶可通過手機攝像頭實時拍照搜索。
谷歌的三大研究項目也取得了顯著進展。Project Starline引入了全新的3D視頻通訊體驗,Project Astra利用Gemini和攝像頭解決問題,而Project Marina則支持多任務(wù)處理,使Agent能夠同時監(jiān)管多項任務(wù)。
大會尾聲,谷歌現(xiàn)場演示了安卓XR智能眼鏡,并宣布與XREAL合作打造第二款安卓XR設(shè)備Project Aura。這款眼鏡具備翻譯能力,盡管在測試時出現(xiàn)了識別問題,但谷歌表示將繼續(xù)優(yōu)化。
皮查伊透露,Gemini應(yīng)用目前擁有超過4億月活用戶,超過700萬名開發(fā)者通過Gemini API進行開發(fā)。這些數(shù)據(jù)表明,谷歌在AI領(lǐng)域的努力正逐步獲得市場的認可。
在Gemini時代,谷歌的模型和產(chǎn)品發(fā)布速度明顯加快。自第一代Gemini模型發(fā)布以來,其Elo分數(shù)已提升300多分,并在多個領(lǐng)域取得了顯著成果。例如,在編程方面,Gemini 2.5 Pro成為Cursor平臺上年度增長最快的模型,每分鐘產(chǎn)出數(shù)十萬行被采納的代碼。
谷歌還展示了其全棧基礎(chǔ)設(shè)施的進步,第七代TPU Ironwood專為大規(guī)模AI思考和推理工作負載設(shè)計,性能是上一代的10倍。同時,谷歌每月通過產(chǎn)品和API處理的token數(shù)量在一年內(nèi)增長了約50倍,顯示出其AI處理能力的巨大提升。
在模型架構(gòu)創(chuàng)新方面,谷歌將擴散模型技術(shù)應(yīng)用于文本生成,推出了Gemini Diffusion實驗?zāi)P汀T撃P筒粌H生成速度快,還能在生成過程中快速迭代解決方案并進行錯誤糾正。
谷歌還致力于將Gemini模型擴展為一個“世界模型”,以提升其對物理世界的理解能力。為此,谷歌微調(diào)了Gemini Robotics模型,使機器人能夠?qū)W習(xí)抓取物體、遵循指令等任務(wù),并即時適應(yīng)新任務(wù)。
谷歌的最終愿景是將Gemini打造成真正的通用AI助手,具備個性化、主動性和強大能力。這一目標的實現(xiàn)將為用戶帶來更加便捷和智能的體驗。