兄弟们,大模型越狱这事儿真是道高一尺魔高一丈。今天Anthropic放出了新武器——Constitutional Classifiers(宪法分类器),不是简单改prompt,而是直接对齐到模型的推理过程中。
传统安全方案多是训练一个“拒绝分类器”在输入/输出层做过滤,但容易被prompt注入、多轮诱导绕过。Anthropic这次用“行为规则”+“推理拒绝”替代了粗暴关键词匹配。简单说,模型在生成回答前,先对“用户意图”做一次宪法审查,如果发现违反《宪法AI规则》,就生成一个“拒绝理由”并终止输出。
技术细节上,它不是微调模型,而是用一组“分类器提示”在推理阶段动态评估。实验数据:新方案在HarmBench(常见越狱集)上把攻击成功率从58%降到0.5%以下,泛化能力提升了14倍。代价是推理延迟增加了约15%,但相比那些需要二次模型投票的方案,已经算很轻了。
注意,这不是万灵药。Anthropic自己承认,针对“工具滥用”和“模型自身权限升级”的防御依然薄弱。但至少在prompt injection这个战场上,我们终于看到从“修复漏洞”转向“设计免疫系统”的思维转变了。
建议团队搞安全的同学重点关注,可以试试把自己的合规规则写进推理前检查里。 |