@HCPTangHY 在 Anthropic发布下一代Constitutional Classifiers++:更高效的AI越狱防护系统 中发帖
原文地址:
Anthropic今日发布了名为"Constitutional Classifiers++"的新一代安全防护系统,旨在更高效地保护大语言模型免受"越狱"攻击。
Anthropic去年曾推出第一代Constitutional Classifiers系统,将越狱攻击的成功率从86%大幅降至4.4%,拦截效果显著。但该系统也带来了计算成本增加近24%、以及对正常请求误拒率上升等问题。
此次发布的新一代系统采用了创新的两阶段架构:首先由轻量级探针对所有对话进行初筛,仅将可疑内容交由更强大的分类器做最终判断。同时,新系统能够同时分析用户输入和模型输出的上下文关联,从而更精准地识别伪装后的有害请求。
根据Anthropic公布的数据,新系统对正常请求的误拒率仅为0.05%,较上一代下降87%;计算开销也从原来的近24%骤降至仅约1%。在超过1700小时、近20万次的红队攻击测试中...