@HCPTangHY 在 Anthropic发布下一代Constitutional Classifiers++：更高效的AI越狱防护系统中发帖原文地址： Anthropic今日发布了名为"Constitutional Classifiers++"的新一代安全防护系统，旨在更高效地保护大语言模型免受"越狱"攻击

@HCPTangHY 在 Anthropic发布下一代Constitutional Classifiers++：更高效的AI越狱防护系统中发帖

原文地址： 

Anthropic今日发布了名为"Constitutional Classifiers++"的新一代安全防护系统，旨在更高效地保护大语言模型免受"越狱"攻击。 
Anthropic去年曾推出第一代Constitutional Classifiers系统，将越狱攻击的成功率从86%大幅降至4.4%，拦截效果显著。但该系统也带来了计算成本增加近24%、以及对正常请求误拒率上升等问题。 
此次发布的新一代系统采用了创新的两阶段架构：首先由轻量级探针对所有对话进行初筛，仅将可疑内容交由更强大的分类器做最终判断。同时，新系统能够同时分析用户输入和模型输出的上下文关联，从而更精准地识别伪装后的有害请求。 
根据Anthropic公布的数据，新系统对正常请求的误拒率仅为0.05%，较上一代下降87%；计算开销也从原来的近24%骤降至仅约1%。在超过1700小时、近20万次的红队攻击测试中...