滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

為訓練AI模型，Anthropic購入并“銷毀”巨量圖書

時間：2025-06-26 10:00:28 來源：IT之家編輯：快訊團隊 IP：北京 發表評論無障礙通道

6 月 26 日消息，據外媒 Ars Technica 今日報道，當地時間周一公開的法庭文件披露，人工智能公司 Anthropic 曾斥資數百萬美元，將實體圖書拆解并掃描成數字文件，用于訓練類似 ChatGPT 的 AI 助手 Claude。為了獲取訓練數據，公司將大量圖書拆除裝訂、掃描進系統，隨后直接丟棄原件。

判決書長達 32 頁，披露了 Anthropic 在 2024 年 2 月雇傭 Tom Turvey 的經過。Turvey 曾負責 Google Books 項目的合作事務，公司委托他“獲取全世界的圖書”。這一戰略性人事安排，顯然是希望復制谷歌曾被法院認定為合理使用的圖書數字化模式。

最終，法官 William Alsup 裁定，該掃描方式構成合理使用，理由是圖書已由 Anthropic 合法購買、掃描后即刻銷毀，且數字文件僅限內部使用，未向外傳播。他認為這類轉換相當于“節省空間”的數字化轉化，具有合理使用中的“轉化性”特征。如果公司一開始就遵守這一路徑，或許已樹立 AI 合理使用的首個判例，但早期的盜版行為削弱了其合法性。

核心原因其實很簡單：AI 訓練需要海量優質文本。為了構建大語言模型，研究人員需將億萬詞語輸入神經網絡，反復訓練模型，建立詞語與概念之間的關系。

訓練數據的質量直接影響模型輸出的準確性。相比網絡評論等雜亂信息，編輯過的書籍和文章能顯著提升 AI 的語言能力。

AI 公司急需出版內容，但通常不愿耗費時間談授權。美國的“首次銷售原則”提供了法律空間：買下實體書之后，使用者可以自行處理。這就讓購買圖書成為一種合法的“繞道方案”。

和許多同行一樣，Anthropic 最初選擇了繞過版權的捷徑。從法庭材料獲悉，為了繞開冗長復雜的授權流程，CEO 阿莫代伊曾主張使用盜版電子書。但到了 2024 年，出于法律考慮，公司開始尋求更安全的替代方案。

收購二手書成為理想選擇：不必談授權，又能獲得質量上乘的訓練文本。為了加快數字化進程，Anthropic 采用“破壞式掃描”，大量購入圖書，拆封、裁剪、整批掃描為機器可讀的 PDF 文件，完成后紙本全部廢棄。整個流程耗資數百萬美元。

該公司的購買對象大多是零售渠道的普通舊書。但事實上，非破壞性掃描技術早已成熟。比如 Internet Archive 就開發出可保留原書的數字化手段。本月早些時候，OpenAI 和微軟也宣布與哈佛大學圖書館合作，計劃使用近百萬本公版書籍訓練 AI，這些書籍在被數字化的同時依舊妥善保存。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

近半數蘋果iPhone購買者選擇以舊換新或出售舊設備

06-26

全新梅賽德斯-AMG GT XX概念轎跑正式亮相

06-26

保時捷確認未來車型將會支持蘋果CarPlay Ultra

06-26

華為宣布Pura 80海外發布網友喊話希望用鴻蒙

06-26

虧損閉店漩渦中的“新茶飲第一股”，又出事了

06-26

兩大AI巨頭接連勝訴美法官：用書籍訓練AI屬“合理使用”

06-26

小米今晚發布會新品匯總

06-26

宇樹科技王興興：公司目前員工約一千人，年度營收超十億元

06-26

中國科研崛起：自然指數見證“十四五”期間全球影響力

《自然》雜志總編輯瑪格達萊娜·斯基珀近期接受新華社記者采訪時說，“這無疑證明了中國在科研和教育方面的系統性投入，以及對國際合作重要性的高度重視。” 以人工智能領域為例，美國麻省理工學院知名人工智能專家馬克斯·…

06-26

2025年AI CITY發展藍圖：探索“人工智能+”時代下的智慧城市新范式

本報告聚焦“人工智能+”時代智慧城市發展范式創新，深入探討AICITY的內涵、架構及實踐路徑，為智慧城市建設提供了系統性指導。與傳統智慧城市相比，AI CITY在數據融合、應用模式和決策能力等方面發生根本…

06-26

英偉達CEO黃仁勛：機器人技術將成為公司第二大增長引擎

據財聯社報道，當地時間25日，英偉達首席執行官黃仁勛表示，除了人工智能(AI)之外，機器人技術將是這家芯片制造商最具發展潛力的市場，而自動駕駛汽車將是該技術的第一個主要商業應用。在英偉達年度股東大會上，黃…

06-26

物聯網賦能智慧交通：實時調控，讓城市道路更暢通

通過在道路上部署各類傳感器，如攝像頭、地磁傳感器、雷達等，能夠實時收集交通流量、車速、車輛位置等關鍵信息。車輛與道路基礎設施之間通過物聯網技術實現實時通信，車輛可以接收來自路側單元（RSU）的信息，如前方急轉…

06-26

周鴻祎自謙：雷軍影響力遠超我，需多向其學習

6月25日，在2025夏季達沃斯論壇現場，360集團董事長周鴻祎被問“你和雷軍誰的影響力更大”，他表示“當然是雷總的影響力更大”。周鴻祎稱雷軍做的事業更好、更多，他還對媒體表示：“確實不一樣，你不用拿這個問…

06-26

馬斯克點贊：谷歌坐擁AI全要素，為何不敵OpenAI？

一名X用戶就此事評論稱，谷歌擁有引領人工智能競賽的所有資源——比如transformer模型、數據、谷歌Books和強大的計算能力——但在這場競賽中仍然輸給了OpenAI。據報道，在2022年底Open…

06-26

羅永浩回應為何總能融到錢并回擊謾罵

06-26

點擊查看更多 +

全站最新

物聯網賦能智慧交通：實時調控，讓城市道路更暢通

周鴻祎自謙：雷軍影響力遠超我，需多向其學習

Steam連接難題？這些實用方法助你重獲流暢游戲體驗

物聯網賦能智慧交通：道路智能調控，讓城市出行更暢通

AI賦能物流：智能化升級，打造高效低成本的物流新時代

量子糾纏交換：解鎖時空的神秘鏈接，推動量子科技與通信革新

熱門內容

本欄最新

中國科研崛起：自然指數見證“十四五”期間全球影響力

2025年AI CITY發展藍圖：探索“人工智能+”時代下的智慧城市新范式

英偉達CEO黃仁勛：機器人技術將成為公司第二大增長引擎

物聯網賦能智慧交通：實時調控，讓城市道路更暢通

周鴻祎自謙：雷軍影響力遠超我，需多向其學習

馬斯克點贊：谷歌坐擁AI全要素，為何不敵OpenAI？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

為訓練AI模型，Anthropic購入并“銷毀”巨量圖書

日本精品一区二区三区高清久久