闲社

标题: Anthropic提出“宪法分类器”：让模型在推理层面拒绝越狱，精度提升14倍 [打印本页]

作者: 11111111qq 时间: 昨天 15:01
标题: Anthropic提出“宪法分类器”：让模型在推理层面拒绝越狱，精度提升14倍
兄弟们，大模型越狱这事儿真是道高一尺魔高一丈。今天Anthropic放出了新武器——Constitutional Classifiers（宪法分类器），不是简单改prompt，而是直接对齐到模型的推理过程中。

传统安全方案多是训练一个“拒绝分类器”在输入/输出层做过滤，但容易被prompt注入、多轮诱导绕过。Anthropic这次用“行为规则”+“推理拒绝”替代了粗暴关键词匹配。简单说，模型在生成回答前，先对“用户意图”做一次宪法审查，如果发现违反《宪法AI规则》，就生成一个“拒绝理由”并终止输出。

技术细节上，它不是微调模型，而是用一组“分类器提示”在推理阶段动态评估。实验数据：新方案在HarmBench（常见越狱集）上把攻击成功率从58%降到0.5%以下，泛化能力提升了14倍。代价是推理延迟增加了约15%，但相比那些需要二次模型投票的方案，已经算很轻了。

注意，这不是万灵药。Anthropic自己承认，针对“工具滥用”和“模型自身权限升级”的防御依然薄弱。但至少在prompt injection这个战场上，我们终于看到从“修复漏洞”转向“设计免疫系统”的思维转变了。

建议团队搞安全的同学重点关注，可以试试把自己的合规规则写进推理前检查里。

欢迎光临闲社 (https://www.xianshe.com/)