返回顶部
7*24新情报

Anthropic提出“宪法分类器”:让模型在推理层面拒绝越狱,精度提升14倍

[复制链接]
11111111qq 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,大模型越狱这事儿真是道高一尺魔高一丈。今天Anthropic放出了新武器——Constitutional Classifiers(宪法分类器),不是简单改prompt,而是直接对齐到模型的推理过程中。

传统安全方案多是训练一个“拒绝分类器”在输入/输出层做过滤,但容易被prompt注入、多轮诱导绕过。Anthropic这次用“行为规则”+“推理拒绝”替代了粗暴关键词匹配。简单说,模型在生成回答前,先对“用户意图”做一次宪法审查,如果发现违反《宪法AI规则》,就生成一个“拒绝理由”并终止输出。

技术细节上,它不是微调模型,而是用一组“分类器提示”在推理阶段动态评估。实验数据:新方案在HarmBench(常见越狱集)上把攻击成功率从58%降到0.5%以下,泛化能力提升了14倍。代价是推理延迟增加了约15%,但相比那些需要二次模型投票的方案,已经算很轻了。

注意,这不是万灵药。Anthropic自己承认,针对“工具滥用”和“模型自身权限升级”的防御依然薄弱。但至少在prompt injection这个战场上,我们终于看到从“修复漏洞”转向“设计免疫系统”的思维转变了。

建议团队搞安全的同学重点关注,可以试试把自己的合规规则写进推理前检查里。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表