近日,Anthropic與英國人工智能安全研究所、艾倫圖靈研究所聯合發布了一項重要研究成果,揭示了大型語言模型(LLM)在數據安全領域的潛在脆弱性。研究指出,僅需250份經過特殊處理的“投毒”文件,便可在不同規模的LLM中成功植入后門,且攻擊效果與模型參數量無直接關聯。
傳統認知中,破壞模型需要控制訓練數據的特定比例,但此次研究顛覆了這一假設。實驗覆蓋了參數量從6億到130億的多種模型,結果顯示,即使使用更清潔數據訓練的大型模型,所需的中毒文檔數量也保持穩定。在測試中,中毒樣本僅占數據集的0.00016%,卻足以顯著影響模型行為。研究人員通過72個不同規模模型的訓練實驗,分別使用100、250和500份中毒文件進行攻擊測試,發現250份文檔即可實現可靠的后門植入,而增加至500份并未提升攻擊效果。
實驗采用了一種“拒絕服務”式的后門攻擊方式:當模型遇到特定觸發詞“SUDO”時,會輸出隨機無意義的亂碼。每個中毒文檔均包含正常文本,隨后是觸發詞,最后附加一段無意義內容。Anthropic特別說明,此次測試的后門屬于低風險漏洞,僅會導致模型生成無意義代碼,對先進AI系統不構成重大威脅。目前,尚無明確證據表明類似方法可實現更嚴重的攻擊,如生成不安全代碼或繞過安全機制,早期研究表明復雜攻擊的實施難度顯著更高。
盡管公開研究結果可能引發攻擊者嘗試,但Anthropic認為,披露此類信息對AI社區具有積極意義。數據中毒攻擊中,防御者可通過重新檢查數據集和訓練后的模型占據主動。研究強調,防御者需警惕此前認為不可能發生的攻擊方式,確保保護措施在極少量中毒樣本持續存在的情況下仍能有效。然而,攻擊者仍需克服獲取訓練數據和突破模型訓練后防御機制的挑戰。





