变色龙 (@bianselong) 在 Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率中发帖Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施，旨在遏制 Claude 3.5 Sonnet（其最新、最先进的大型语言模型）的越狱（即生成超出大型语言模型既定安全防护范围的输出内容）

变色龙 (@bianselong) 在 Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率中发帖

Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施，旨在遏制 Claude 3.5 Sonnet（其最新、最先进的大型语言模型）的越狱（即生成超出大型语言模型既定安全防护范围的输出内容）。 
作者们发现，在实施宪法分类器后，针对 Claude 模型的成功越狱情况减少了 81.6%，同时该系统对性能的影响极小，“生产流量拒绝率仅绝对增加 0.38%，推理开销增加 23.7%”。 
虽然大型语言模型能生成大量各种各样的有害内容，但 Anthropic（以及 OpenAI 等同行）越来越关注与化学、生物、放射和核（CBRN）相关内容的风险。例如，大型语言模型可能会告诉用户如何制造化学制剂。 
因此，为了证明宪法分类器的价值，Anthropic 发布了一个演示项目，向用户发起挑战，让他们尝试突破 8 个与 CBRN 内容相关的越狱关卡。但这一举措招致了一些批评，有人认为...