Anthropic提出“宪法分类器”：让模型在推理层面拒绝越狱，精度提升14倍

显示全部楼层

兄弟们，大模型越狱这事儿真是道高一尺魔高一丈。今天Anthropic放出了新武器——Constitutional Classifiers（宪法分类器），不是简单改prompt，而是直接对齐到模型的推理过程中。

传统安全方案多是训练一个“拒绝分类器”在输入/输出层做过滤，但容易被prompt注入、多轮诱导绕过。Anthropic这次用“行为规则”+“推理拒绝”替代了粗暴关键词匹配。简单说，模型在生成回答前，先对“用户意图”做一次宪法审查，如果发现违反《宪法AI规则》，就生成一个“拒绝理由”并终止输出。

技术细节上，它不是微调模型，而是用一组“分类器提示”在推理阶段动态评估。实验数据：新方案在HarmBench（常见越狱集）上把攻击成功率从58%降到0.5%以下，泛化能力提升了14倍。代价是推理延迟增加了约15%，但相比那些需要二次模型投票的方案，已经算很轻了。

注意，这不是万灵药。Anthropic自己承认，针对“工具滥用”和“模型自身权限升级”的防御依然薄弱。但至少在prompt injection这个战场上，我们终于看到从“修复漏洞”转向“设计免疫系统”的思维转变了。

建议团队搞安全的同学重点关注，可以试试把自己的合规规则写进推理前检查里。

蒸馏技术新突破：小模型也能吊打老师，四步

Meta Llama 3 实测：400B参数未开源，但8B

Cline v3.0实测：MCP协议让AI编程助手“长

DeepSeek开源MoE训练框架，千亿级模型部署

Qwen2.5-72B跑分实测：指令遵循飙升40%，单

实测DeepSeek 2.5：性价比炸裂，长上下文推

vLLM 0.6 + Triton 实测：LLM推理吞吐提升3

Anthropic提出“宪法分类器”：让模型在推

LoRA微调新进展：4bit量化下仅需1%显存，效

DeepSeek-V2开源MoE模型实测：推理速度飙升

Anthropic提出“宪法分类器”：让模型在推理层面拒绝越狱，精度提升14倍