12 月 13 日消息,據《商業內幕》今日報道,谷歌 DeepMind 本周發布了 FACTS 基準測試,用來檢驗 AI 在事實準確性方面到底靠不靠譜。
這一測試從四個維度評估模型能力,包括是否能憑自身知識準確回答事實問題、能否正確使用網絡搜索、是否能在長文檔中扎實引用信息,以及對圖像內容的理解水平。在參測模型中,谷歌的 Gemini 3 Pro 表現最好,準確率為 69%,其他主流模型則明顯落后。
這一成績對企業同樣是個警鐘。雖然 AI 在生成速度和語言流暢度上優勢明顯,但在事實可靠性方面仍然遠低于人類標準,特別是在需要專業細分知識、復雜推理或嚴格基于原始材料的場景中。
報道指出,谷歌希望通過明確模型出錯的位置和方式,加快 AI 的改進速度。但眼下可以得出的結論非常清楚,AI 確實在進步,然而仍有大約三分之一的時間會犯錯。







