一項最新研究顯示,通過將指令轉化為詩歌形式,研究人員成功突破了多款主流人工智能大語言模型的安全防護機制。這項題為《對抗性詩歌:一種通用的單輪大語言模型越獄機制》的研究,由伊卡洛實驗室團隊完成,其核心發現表明,語言模型的防護體系在特定形式的文本誘導下存在顯著漏洞。
實驗過程中,研究人員將涉及制造核武器、兒童性虐待材料及自殺自殘等敏感內容的指令,以詩歌形式重新編碼后輸入模型。結果顯示,這種"越獄詩歌"整體成功率達62%,能夠誘導模型生成原本被禁止輸出的信息。研究團隊特別指出,詩歌的韻律結構和隱喻表達方式,可能干擾了模型對指令內容的識別判斷。
在測試的多個模型中,Google Gemini、DeepSeek和MistralAI的表現尤為突出——這些模型在所有測試場景中均未能有效攔截違規請求。相比之下,OpenAI的GPT-5系列和Anthropic的Claude Haiku 4.5展現出更強的防護能力,成為測試中最難被突破的模型。研究人員認為,這種差異可能與不同模型的安全訓練強度和內容過濾機制有關。
盡管研究論文未公開完整的"越獄詩歌"樣本,但團隊向科技媒體透露,這些詩句包含的誘導信息具有潛在危險性,因此不宜公開傳播。不過論文中仍提供了一個經過脫敏處理的示例,用以證明這種攻擊方式的可行性。研究負責人強調:"實驗結果證明,繞過AI安全防護的難度遠低于公眾預期,這正是我們保持謹慎的重要原因。"
目前該研究已引發人工智能安全領域的廣泛關注。有專家指出,隨著大語言模型應用場景不斷拓展,此類攻擊手段可能帶來嚴重倫理風險。部分模型開發者表示,將根據研究結果升級防護系統,重點優化對隱喻性指令的識別能力。但也有聲音認為,完全杜絕此類攻擊在技術層面存在挑戰,需要建立更完善的內容安全評估體系。










