滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

谷歌推出基準測試檢驗AI：Gemini 3 Pro準確率僅69%

時間：2025-12-13 17:36:24 來源：IT之家編輯：快訊 IP：北京 發表評論無障礙通道

12 月 13 日消息，據《商業內幕》今日報道，谷歌 DeepMind 本周發布了 FACTS 基準測試，用來檢驗 AI 在事實準確性方面到底靠不靠譜。

這一測試從四個維度評估模型能力，包括是否能憑自身知識準確回答事實問題、能否正確使用網絡搜索、是否能在長文檔中扎實引用信息，以及對圖像內容的理解水平。在參測模型中，谷歌的 Gemini 3 Pro 表現最好，準確率為 69%，其他主流模型則明顯落后。

這一成績對企業同樣是個警鐘。雖然 AI 在生成速度和語言流暢度上優勢明顯，但在事實可靠性方面仍然遠低于人類標準，特別是在需要專業細分知識、復雜推理或嚴格基于原始材料的場景中。

報道指出，谷歌希望通過明確模型出錯的位置和方式，加快 AI 的改進速度。但眼下可以得出的結論非常清楚，AI 確實在進步，然而仍有大約三分之一的時間會犯錯。

更多>同類資訊

谷歌翻譯支持通過耳機實時收聽翻譯結果

12-13

博通因Anthropic和AI訂單激增而業務繁忙

12-13

上市半年，小米YU7準新車二手市場“破發”，市場供給影響價格走向

12-13

谷歌翻譯新升級：耳機實時聽譯引入Gemini功能拓展語言學習新體驗

12-13

博通AI業務蓬勃發展：Anthropic大單加持，新財年訂單量創新高

12-13

宇樹科技上線人形機器人應用商店，攜手智元共筑機器人生態新未來

用戶可以將訓練好的舞蹈、武術、干活等模型上傳分享，也可以下載其他開發者開發的動作，將其部署至宇樹的機器人上。通過獨家的動力學算法與動作捕捉數據，宇樹科技將李小龍（BruceLee）經典的截拳道（Jeet …

12-13

谷歌AI試衣新功能上線：上傳自拍生成數字模特，預覽服裝上身效果

12-13

谷歌翻譯搭載Gemini AI模型升級，多語言實時同傳功能上線助力交流

12-13

大疆或推全新無人機產品線 Lito 1與Lito X1兩款機型浮出水面

12-13

谷歌安卓“通話事由”功能測試中，緊急來電或可突破勿擾模式提醒

12-13

谷歌升級安卓“健康連接”：新增酒精攝入監測與醫療癥狀追蹤功能

12-13

宜家VASTMARKE無線充電器來襲：“甜甜圈”變身支架，線纜管理超實用

12-13

水月雨Rays光束耳機AG聯名款來襲，439元享《三角洲行動》專屬調音體驗

12-13

谷歌Gemini賦能翻譯應用：AI同傳無設備限制 70余種語言暢聊無憂

12-13

小米17 Ultra周一官宣在即！或攜小米NAS同臺亮相影像續航亮點多

12-13

點擊查看更多 +

全站最新

小米汽車上線“現車選購”新功能，“準新車”入列，雷軍稱概念源自同行

小米汽車“現車選購”上新啦！準新車等現車供應享快速提車與質保優惠

保時捷2026年純電Macan與卡宴將支持蘋果數字車鑰匙開啟便捷出行新體驗

上市半年市場變天：小米YU7準新車二手價跌破發售價保值神話不再？

吉利全球全域安全中心發布創五大世界紀錄引領汽車安全新生態

智界V9：以MPV之姿，開啟華為汽車生態化高端探索新征程

熱門內容

本欄最新

小米汽車上線“現車選購”新功能，“準新車”入列，雷軍稱概念源自同行

小米汽車“現車選購”上新啦！準新車等現車供應享快速提車與質保優惠

上市半年市場變天：小米YU7準新車二手價跌破發售價保值神話不再？

智界V9：以MPV之姿，開啟華為汽車生態化高端探索新征程

微信推客新模式：不強制帶貨，讓日常消費與分享皆成增收新途徑

小米汽車準新車開售優惠多，三款新車來襲明年或迎銷量口碑雙提升

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

谷歌推出基準測試檢驗AI：Gemini 3 Pro準確率僅69%

日本精品一区二区三区高清久久