变色龙 (@bianselong)Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率 中发帖

Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先进的大型语言模型)的越狱(即生成超出大型语言模型既定安全防护范围的输出内容)。 
作者们发现,在实施宪法分类器后,针对 Claude 模型的成功越狱情况减少了 81.6%,同时该系统对性能的影响极小,“生产流量拒绝率仅绝对增加 0.38%,推理开销增加 23.7%”。
虽然大型语言模型能生成大量各种各样的有害内容,但 Anthropic(以及 OpenAI 等同行)越来越关注与化学、生物、放射和核(CBRN)相关内容的风险。例如,大型语言模型可能会告诉用户如何制造化学制剂。
因此,为了证明宪法分类器的价值,Anthropic 发布了一个演示项目,向用户发起挑战,让他们尝试突破 8 个与 CBRN 内容相关的越狱关卡。但这一举措招致了一些批评,有人认为...