变色龙 (@bianselong) 在 Anthropic 新研究：打错字就能“越狱”GPT-4、Claude 等 AI 模型中发帖据 404 Media 报道，人工智能公司 Anthropic 近期发布了一项研究，揭示了大型语言模型（LLM）的安全防护仍然十分脆弱，且绕过这些防护的“越狱”过程可以被自动化

变色龙 (@bianselong) 在 Anthropic 新研究：打错字就能“越狱”GPT-4、Claude 等 AI 模型中发帖

据 404 Media 报道，人工智能公司 Anthropic 近期发布了一项研究，揭示了大型语言模型（LLM）的安全防护仍然十分脆弱，且绕过这些防护的“越狱”过程可以被自动化。研究表明，仅仅通过改变提示词（prompt）的格式，例如随意的大小写混合，就可能诱导 LLM 产生不应输出的内容。 
为了验证这一发现，Anthropic 与牛津大学、斯坦福大学和 MATS 的研究人员合作，开发了一种名为“最佳 N 次”（Best-of-N，BoN）越狱的算法。“越狱”一词源于解除 iPhone 等设备软件限制的做法，在人工智能领域则指绕过旨在防止用户利用 AI 工具生成有害内容的安全措施的方法。OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5 等，是目前正在开发的最先进的 AI 模型。 
研究人员解释说，“BoN 越狱的工作原理是重复采样提示词的变体，并结合各种增强...