近期,科技界的焦點再度聚焦于谷歌,在一場備受矚目的聯邦反壟斷審判中,谷歌被揭露了一項備受爭議的行為。據透露,即便網站出版商明確表達了不希望其內容被用于人工智能模型訓練的意愿,谷歌依然會利用從搜索引擎中收集的數據進行AI訓練,特別是涉及到頗具爭議的AI Overviews功能。
這一驚人事實是由谷歌人工智能實驗室DeepMind的副總裁伊萊·柯林斯在法庭上親自證實的。在司法部的質詢下,柯林斯坦承,即便出版商明確拒絕了DeepMind使用其數據進行大型語言模型訓練,這些數據仍會被谷歌搜索部門用于其他人工智能項目。司法部律師戴安娜·阿吉拉爾在法庭上引用了一份2024年的內部文件,該文件顯示谷歌已收集了驚人的1600億個文本單元用于AI訓練。盡管其中一半數據因出版商的選擇退出而被標記為刪除,但柯林斯指出,這800億個文本單元實際上仍在谷歌內部被用于AI訓練,只不過不再直接用于DeepMind項目。
更令人憂慮的是,谷歌提供給網站出版商的唯一防止內容被AI抓取的方法,竟是要求他們從谷歌搜索引擎的索引中完全移除。對于依賴搜索引擎流量的網站而言,這無疑是一個難以接受的選擇,因為它幾乎等同于放棄了大量的網絡曝光機會。
谷歌方面對此的解釋是,這是廣泛使用的robots.txt文件的工作機制所致。robots.txt文件用于指導網絡爬蟲訪問網站的哪些部分,而這些爬蟲不僅服務于搜索引擎的數據收集,也服務于AI訓練。谷歌發言人在一份聲明中強調,公司通過遵循robots.txt文件的網絡標準,為出版商提供了管理其在搜索結果中內容的方式。
然而,這一解釋并未平息外界的質疑。事實上,去年已有聯邦法官裁定谷歌在搜索引擎市場存在非法壟斷行為,濫用其市場主導地位排擠競爭對手并抬高廣告價格。目前,監管機構正在積極考慮采取一系列措施來打破這一壟斷,包括迫使谷歌出售Chrome瀏覽器、禁止其與其他公司簽訂默認搜索引擎協議,或者強制其共享部分數據。
此次審判的新進展進一步揭示了谷歌如何利用其在美國高達90%的搜索引擎市場份額,通過其人工智能計劃來鞏固和擴大其市場地位。如果網站出版商想要避免其內容被谷歌AI抓取,就必須放棄在谷歌搜索結果中的展示,這無疑將切斷他們與絕大多數網絡用戶的聯系。這一事實為谷歌的壟斷行為提供了有力的證據。教育網站Chegg也提出了類似的指控,聲稱谷歌利用其市場主導地位迫使其免費提供內容以訓練AI工具。