xAI 旗下 Grok 4 模型首度被越獄,安全公司利用“回音室攻擊”方法成功迫使其生成不當內容
7 月 18 日消息,網絡安全公司 NeuralTrust 宣布,他們已成功“越獄”xAI 旗下 Grok 4 模型,主要利用了“Echo Chamber(回音室攻擊)”方法進行攻擊。
獲悉,所謂“回音室攻擊”,是指安全人員通過引導模型進行多輪推理,在推理過程中逐步注入帶有風險的信息內容,但又不使用明顯的危險提示詞,從而規避常見的安全攔截機制。這一方式不同于傳統依賴對抗性輸入或“角色扮演(讓模型扮演祖母讀激活碼哄人入睡)”的越獄方式,其更多采用語義誘導、間接引用以及多步推理的方式,悄悄干擾模型的內部邏輯狀態,最終誘導 AI 模型生成不當內容回答。
在此次 Grok 4 的越獄測試中,NeuralTrust 首先通過回音室攻擊對模型進行“軟性引導”,并設置特定機制檢測模型是否進入對話停滯狀態,一旦檢測到這種狀態,就進一步引導 AI 生成不當內容。
據 NeuralTrust 介紹,其已成功令 Grok 4 生成制造武器、毒品等內容,越獄成功率高達 30% 以上。這表明即便是新一代大模型,在面對復雜攻擊路徑時仍存在安全短板,相應大型語言模型應進一步注重設計多重防護機制。