近期,人工智能領域的巨頭Anthropic以一種前所未有的方式引發了公眾和法律界的廣泛關注。據悉,該公司斥資數百萬美元,購買了大量圖書,但其目的并非收藏或出版,而是為了拆解這些書籍,將其轉化為訓練AI助手的寶貴數據。
據外媒Ars Technica深入報道,Anthropic在獲取訓練數據的策略上采取了頗具爭議的手段。他們選擇將實體書籍進行拆解、掃描,并在掃描完成后立即銷毀原件。這一做法的細節在法庭文件中得以曝光,并引發了法律界的廣泛討論。然而,法官William Alsup對此做出了“合理使用”的裁定,理由在于Anthropic所購買的書籍均通過合法渠道獲取,且掃描后的數字文件僅供內部使用,并未對外泄露。
Anthropic的這一舉措背后,是對谷歌書籍項目成功經驗的借鑒。公司CEO阿莫代伊透露,在項目初期,團隊曾考慮過使用盜版電子書作為訓練數據,但出于法律風險的考量,最終決定通過購買二手書籍的方式來確保數據的質量和合法性。通過“破壞式掃描”,Anthropic得以快速高效地將書籍轉化為PDF格式,為AI模型的訓練提供了充足的數據資源。
值得注意的是,盡管非破壞性掃描技術已經相當成熟,并被多家機構所采用,如Internet Archive便開發出能夠保留原書的數字化方式,OpenAI和微軟也與哈佛大學圖書館合作,計劃數字化近百萬本公版書籍,確保書籍原版得到妥善保存。相比之下,Anthropic的做法顯得更為激進,無疑為AI訓練領域帶來了新的思考角度。
隨著人工智能技術的不斷發展,如何在尊重知識產權的前提下獲取訓練數據,成為了業界亟待解決的問題。Anthropic的這一嘗試,盡管在公眾和法律界引發了廣泛爭議,但也為未來的AI發展提供了新的方向和可能性,引發了業界對于數據獲取方式的深入思考和探討。