近日,社交媒體平臺Reddit對人工智能公司Anthropic提起了法律訴訟,指控其未經(jīng)授權(quán),系統(tǒng)性地抓取Reddit上的帖子以訓(xùn)練Claude語言模型。這一行為據(jù)稱違反了Reddit的用戶協(xié)議和商業(yè)使用條款,引起了業(yè)界廣泛關(guān)注。
此次訴訟不僅揭示了AI訓(xùn)練數(shù)據(jù)獲取過程中存在的法律爭議,也進(jìn)一步加劇了內(nèi)容平臺與AI公司之間的緊張關(guān)系。Reddit在訴訟中要求法院強(qiáng)制Anthropic刪除所有包含Reddit內(nèi)容的AI模型和數(shù)據(jù)集,并永久禁止其將基于Reddit數(shù)據(jù)訓(xùn)練的AI模型用于任何商業(yè)目的。
據(jù)訴訟文件顯示,Anthropic在抓取Reddit數(shù)據(jù)時,無視了平臺的技術(shù)保障措施,包括robots.txt文件和基于IP的速率限制等。更令Reddit不滿的是,Anthropic并未使用Reddit提供的合規(guī)API,這一工具能夠在用戶刪除帖子時通知被許可方,從而確保相關(guān)內(nèi)容從訓(xùn)練系統(tǒng)中及時移除。
訴訟中還提到了一個令人震驚的事實(shí):Anthropic的發(fā)言人在公開場合聲稱已將Reddit列入ClaudeBot的黑名單,但Reddit的內(nèi)部日志卻顯示,在該聲明發(fā)布后的幾個月內(nèi),Anthropic的機(jī)器人對Reddit服務(wù)器的訪問次數(shù)仍然高達(dá)數(shù)十萬次。這一發(fā)現(xiàn)直接質(zhì)疑了Anthropic的誠信,并成為了Reddit訴訟的重要證據(jù)。
Reddit在訴訟中強(qiáng)調(diào),Anthropic的行為不僅損害了公司的商業(yè)利益,更對用戶的隱私構(gòu)成了嚴(yán)重威脅。由于Anthropic未經(jīng)授權(quán)地抓取數(shù)據(jù),Reddit無法確認(rèn)已刪除或敏感帖子是否仍被嵌入在Claude模型中。這意味著Reddit用戶可能無法享受到公共內(nèi)容政策和隱私政策的保護(hù),因?yàn)樗麄儫o法得知哪些第三方已經(jīng)抓取并獲取了他們的數(shù)據(jù)。
與此同時,Reddit還特別指出了其他AI公司在數(shù)據(jù)獲取方面的合規(guī)做法。例如,谷歌每年向Reddit支付高達(dá)6000萬美元的費(fèi)用,以獲得訓(xùn)練數(shù)據(jù)的授權(quán)。這一合作不僅提升了Reddit在谷歌搜索中的曝光度,也展示了AI公司在數(shù)據(jù)獲取方面的合法路徑。
Reddit的訴訟要求Anthropic賠償因違約和不正當(dāng)競爭而造成的許可收入損失,并尋求法院發(fā)布禁令,以阻止Anthropic繼續(xù)將Claude或任何基于Reddit數(shù)據(jù)訓(xùn)練的AI模型用于商業(yè)用途。如果Reddit勝訴,這一案件可能會為其他內(nèi)容平臺對AI公司的類似訴訟樹立先例,從而重新定義AI訓(xùn)練數(shù)據(jù)的合法獲取邊界。
當(dāng)前,這一爭議反映了AI快速發(fā)展與傳統(tǒng)版權(quán)和隱私保護(hù)機(jī)制之間的根本性沖突。Reddit訴Anthropic案或?qū)⒊蔀榻鉀Q這一問題的關(guān)鍵判例,對AI行業(yè)的數(shù)據(jù)使用實(shí)踐和成本結(jié)構(gòu)產(chǎn)生深遠(yuǎn)影響。