闲社

标题: Anthropic提出“宪法分类器”:让模型在推理层面拒绝越狱,精度提升14倍 [打印本页]

作者: 11111111qq    时间: 昨天 15:01
标题: Anthropic提出“宪法分类器”:让模型在推理层面拒绝越狱,精度提升14倍
兄弟们,大模型越狱这事儿真是道高一尺魔高一丈。今天Anthropic放出了新武器——Constitutional Classifiers(宪法分类器),不是简单改prompt,而是直接对齐到模型的推理过程中。

传统安全方案多是训练一个“拒绝分类器”在输入/输出层做过滤,但容易被prompt注入、多轮诱导绕过。Anthropic这次用“行为规则”+“推理拒绝”替代了粗暴关键词匹配。简单说,模型在生成回答前,先对“用户意图”做一次宪法审查,如果发现违反《宪法AI规则》,就生成一个“拒绝理由”并终止输出。

技术细节上,它不是微调模型,而是用一组“分类器提示”在推理阶段动态评估。实验数据:新方案在HarmBench(常见越狱集)上把攻击成功率从58%降到0.5%以下,泛化能力提升了14倍。代价是推理延迟增加了约15%,但相比那些需要二次模型投票的方案,已经算很轻了。

注意,这不是万灵药。Anthropic自己承认,针对“工具滥用”和“模型自身权限升级”的防御依然薄弱。但至少在prompt injection这个战场上,我们终于看到从“修复漏洞”转向“设计免疫系统”的思维转变了。

建议团队搞安全的同学重点关注,可以试试把自己的合规规则写进推理前检查里。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0