7 月 21 日消息,據(jù)外媒 Apple Insider 今晚報道,蘋果公司在一篇新的研究論文中再次強調(diào),蘋果智能模型的訓練并未使用任何非法從網(wǎng)絡(luò)抓取的數(shù)據(jù)。
蘋果在新發(fā)布的研究論文中表示,如果出版商不同意其數(shù)據(jù)被抓取用于訓練,蘋果公司將不會抓取這些數(shù)據(jù)?!拔覀兿嘈?,使用多樣且高質(zhì)量的數(shù)據(jù)來訓練我們的模型是必要的。這些數(shù)據(jù)包括我們從出版商那里獲得授權(quán)的數(shù)據(jù)、公開可用或開源數(shù)據(jù)集中的數(shù)據(jù),以及通過我們的網(wǎng)絡(luò)爬蟲 Applebot 抓取的公開信息?!?/p>
蘋果公司補充道:“我們不會在訓練基礎(chǔ)模型時使用用戶的私人數(shù)據(jù)或用戶交互信息。我們還采取措施應用過濾器,去除個人身份信息,排除粗俗和不安全的內(nèi)容?!?/p>
論文的重點在于蘋果如何執(zhí)行這一抓取過程,特別是 Applebot 系統(tǒng)如何在“網(wǎng)絡(luò)雜亂無章的環(huán)境”中確保能夠獲取有效信息。然而,蘋果也回應了有關(guān)版權(quán)的問題,每次都重申蘋果始終尊重版權(quán)持有者的權(quán)益。
從論文中獲悉,蘋果公司表示:“我們將繼續(xù)遵循最佳的倫理抓取實踐,包括遵守廣泛采用的 robots.txt 協(xié)議,允許網(wǎng)頁出版商選擇是否讓他們的內(nèi)容被用于訓練蘋果的生成式基礎(chǔ)模型。網(wǎng)頁出版商對 Applebot 可以訪問哪些頁面以及如何使用這些頁面擁有細致的控制,同時這些頁面仍然能出現(xiàn)在 Siri 和 Spotlight 的搜索結(jié)果中?!?/p>
這些“精細控制”顯然是基于長期使用的 robots.txt 系統(tǒng)。其并非標準的隱私保護機制,不過仍被廣泛采用,網(wǎng)頁出版商通常會在網(wǎng)站上放置一個名為 robots.txt 的文本文件。
如果 AI 系統(tǒng)看到該文件,它就應該避免抓取該站點或文件中列出的特定頁面。“遵守 robots.txt 協(xié)議很容易,而 OpenAI 也曾表示它會遵守這一協(xié)議?!?/p>
論文地址