近日,人工智能領(lǐng)域的一則新聞引起了廣泛關(guān)注。據(jù)外媒報(bào)道,人工智能公司Anthropic被曝出曾投入巨資,將大量實(shí)體圖書(shū)拆解并掃描成數(shù)字文件,用于訓(xùn)練其AI助手Claude,這一做法與ChatGPT的訓(xùn)練方式類似。
據(jù)悉,這一行為是通過(guò)法庭文件公開(kāi)的。文件中詳細(xì)描述了Anthropic為了獲取訓(xùn)練數(shù)據(jù),采取了極端手段:購(gòu)買(mǎi)大量圖書(shū)后,拆除裝訂,整批掃描進(jìn)系統(tǒng),隨后直接丟棄原件。這一做法引發(fā)了版權(quán)問(wèn)題的爭(zhēng)議。
然而,令人驚訝的是,法官William Alsup最終裁定,該掃描方式構(gòu)成合理使用。他的理由是,圖書(shū)已由Anthropic合法購(gòu)買(mǎi),掃描后即刻銷毀,且數(shù)字文件僅限內(nèi)部使用,未向外傳播。法官認(rèn)為,這種轉(zhuǎn)換相當(dāng)于“節(jié)省空間”的數(shù)字化轉(zhuǎn)化,具有合理使用中的“轉(zhuǎn)化性”特征。
盡管如此,法官也指出,如果Anthropic一開(kāi)始就遵守這一路徑,或許已樹(shù)立AI合理使用的首個(gè)判例。然而,由于公司早期存在盜版行為,這在一定程度上削弱了其合法性。據(jù)透露,為了繞開(kāi)冗長(zhǎng)復(fù)雜的授權(quán)流程,Anthropic的CEO阿莫代伊曾主張使用盜版電子書(shū)。
那么,為什么Anthropic要采取如此極端的手段來(lái)獲取訓(xùn)練數(shù)據(jù)呢?原因其實(shí)很簡(jiǎn)單:AI訓(xùn)練需要海量?jī)?yōu)質(zhì)文本。為了構(gòu)建大語(yǔ)言模型,研究人員需要將億萬(wàn)詞語(yǔ)輸入神經(jīng)網(wǎng)絡(luò),反復(fù)訓(xùn)練模型,建立詞語(yǔ)與概念之間的關(guān)系。而編輯過(guò)的書(shū)籍和文章,相比網(wǎng)絡(luò)評(píng)論等雜亂信息,能顯著提升AI的語(yǔ)言能力。
面對(duì)這一需求,AI公司急需出版內(nèi)容,但通常不愿耗費(fèi)時(shí)間談判授權(quán)。美國(guó)的“首次銷售原則”提供了法律空間:買(mǎi)下實(shí)體書(shū)之后,使用者可以自行處理。這就讓購(gòu)買(mǎi)圖書(shū)成為一種合法的“繞道方案”。Anthropic正是看中了這一點(diǎn),才選擇了大量購(gòu)買(mǎi)二手書(shū)進(jìn)行掃描。
為了加快數(shù)字化進(jìn)程,Anthropic采用了“破壞式掃描”的方式。他們大量購(gòu)入圖書(shū),拆封、裁剪后整批掃描為機(jī)器可讀的PDF文件。這一流程耗資數(shù)百萬(wàn)美元,但確實(shí)為AI助手Claude的訓(xùn)練提供了大量?jī)?yōu)質(zhì)文本。
然而,值得注意的是,非破壞性掃描技術(shù)早已成熟。例如,Internet Archive就開(kāi)發(fā)出了可保留原書(shū)的數(shù)字化手段。本月早些時(shí)候,OpenAI和微軟也宣布與哈佛大學(xué)圖書(shū)館合作,計(jì)劃使用近百萬(wàn)本公版書(shū)籍訓(xùn)練AI。這些書(shū)籍在被數(shù)字化的同時(shí)依舊妥善保存,既滿足了AI訓(xùn)練的需求,又保護(hù)了原書(shū)的完整性。
相比之下,Anthropic的“破壞式掃描”方式顯得過(guò)于極端。雖然法官最終裁定其構(gòu)成合理使用,但這一做法仍然引發(fā)了廣泛的爭(zhēng)議和反思。未來(lái),隨著AI技術(shù)的不斷發(fā)展,如何平衡AI訓(xùn)練與版權(quán)保護(hù)之間的關(guān)系,將成為業(yè)界和法界共同面臨的挑戰(zhàn)。