近期,一項涉及斯坦福大學、康奈爾大學及西弗吉尼亞大學研究人員的聯合研究揭示了meta旗下Llama3.1 AI模型的一個驚人能力:它能夠幾乎一字不差地復制大量受版權保護的書籍內容。這一發現為meta帶來了潛在的巨大法律風險。
據研究顯示,Llama3.170B模型在測試中成功重現了《哈利波特:神秘的魔法石》近42%的文本,這一比例遠超初代Llama模型的4.4%。這一發現引發了業界對AI模型版權邊界的新一輪討論。
OpenAI的ChatGPT和meta的Llama等AI模型通常通過大規模數據集進行訓練,旨在識別并生成新的語言模式。然而,此次研究發現,Llama模型似乎并不僅限于學習語言模式,而是能夠近乎“完整記憶”特定書籍,如《哈利波特》和《1984》。斯坦福大學的法律專家馬克·萊姆利指出,若AI能夠生成訓練數據的完整摘錄,那么它就不再被視為基于學習的“創新作品”,而更像是一個存儲版權作品的“大型壓縮包”,允許用戶隨意提取。
萊姆利的研究團隊在測試多家公司的AI模型時,發現meta的Llama是唯一能夠準確復述書籍內容的模型。除了《哈利波特》首部作品,Llama還展現了對《了不起的蓋茨比》和《1984》等經典作品的顯著記憶能力。
meta使用受版權保護材料訓練AI的做法一直備受爭議。目前,該公司正面臨多起版權訴訟,其中包括知名作家(如喜劇演員莎拉·西爾弗曼)提起的訴訟,指控meta的模型基于非法獲取的“Books3”數據集進行訓練。該數據集包含近20萬份受版權保護的出版物。法庭文件顯示,一名meta工程師在下載種子文件時曾表達過不安。
萊姆利估計,如果“Books3”數據集中僅有3%的內容被認定為侵權,meta可能面臨近10億美元的法定賠償。若侵權比例更高,其法律責任將更加沉重。值得注意的是,萊姆利曾代表meta在之前的生成式AI版權訴訟中進行辯護,但此次研究結果似乎改變了他的立場。今年早些時候,他宣布不再代理meta,以抗議該公司及其首席執行官馬克·扎克伯格的某些行為。
對于萊姆利的最新研究發現,meta拒絕發表評論。