近日,人工智能領域的一樁法庭案件揭示了Anthropic公司在訓練其AI助手Claude時采取的非常規手段。據外媒報道,Anthropic為獲取訓練數據,斥巨資將大量實體圖書拆解并掃描成數字文件,而這些圖書在掃描完成后即被丟棄。
這一行為的核心在于AI訓練對海量優質文本的需求。為了構建大語言模型,研究人員需要將數以億計的詞語輸入神經網絡,并通過反復訓練來建立詞語與概念之間的聯系。編輯過的書籍和文章因其高質量,成為提升AI語言能力的關鍵資源。
然而,獲取這些出版內容的授權往往耗時費力。于是,Anthropic選擇了繞過版權的捷徑。據法庭文件披露,該公司曾大量購入二手圖書,通過拆封、裁剪、整批掃描的方式,將其轉化為機器可讀的PDF文件。這一過程耗資巨大,且圖書在掃描完成后即被廢棄。
值得注意的是,美國的“首次銷售原則”為這種購買后自行處理的行為提供了一定的法律空間。但Anthropic的做法仍然引發了版權爭議。早期,公司甚至考慮過使用盜版電子書,直到2024年因法律考慮才開始尋求更安全的替代方案。
在長達32頁的判決書中,還披露了Anthropic雇傭Tom Turvey的細節。Turvey曾負責Google Books項目的合作事務,他的加入顯然是為了復制谷歌曾被法院認定為合理使用的圖書數字化模式。然而,盡管法官最終裁定Anthropic的掃描方式構成合理使用,理由包括圖書的合法購買、掃描后的即刻銷毀以及數字文件的內部使用,但早期的盜版行為仍然削弱了其合法性。
事實上,非破壞性掃描技術早已存在。例如,Internet Archive就開發出了一種可以保留原書的數字化手段。本月早些時候,OpenAI和微軟也宣布與哈佛大學圖書館合作,計劃使用近百萬本公版書籍來訓練AI,而這些書籍在被數字化的同時依舊得到了妥善保存。
相比之下,Anthropic的“破壞式掃描”不僅造成了資源的浪費,也引發了關于AI倫理和可持續性的討論。隨著AI技術的不斷發展,如何在尊重版權、保護環境的前提下獲取高質量的訓練數據,成為了一個亟待解決的問題。