闲社

标题: Anthropic新论文：用“电路破译”法让Claude更安全，对齐精度提升40% [打印本页]

作者: mander 时间: 2 小时前
标题: Anthropic新论文：用“电路破译”法让Claude更安全，对齐精度提升40%
兄弟们，今天聊聊模型安全与对齐领域的一个硬核进展。Anthropic刚发了一篇新论文，核心是“电路破译”技术——不再靠玄学调prompt，而是直接拆解模型内部神经元回路，找到那些可能让模型“越狱”的隐患。

先说技术细节。他们用稀疏自编码器（SAE）把Claude的中间层激活值映射成可解释特征，然后定位了300多个与“有害行为”相关的子电路。比如，当模型生成攻击性内容时，这些电路会异常活跃。关键操作是：通过梯度剪枝，只抑制这些有害电路，保留90%+的通用能力。实验数据显示，对红队测试中的越狱攻击，防御成功率从72%提升到94%，而模型在MMLU基准上的性能只掉了不到1%。

为什么有实用价值？以前做对齐，要么靠RLHF（成本高、容易过优化），要么靠prompt模板（容易被绕过）。现在这种“定向电路编辑”法，相当于给模型做了个精准的“脑外科手术”，既不影响日常问答质量，又能堵上后门。目前开源了部分代码，社区已有人复现到7B模型上，感兴趣可以看看GitHub的“sae-circuit-editing”项目。

最后提个醒：这类技术还没到完全可控阶段，但方向对了。做安全对齐的兄弟，建议关注下特征可视化工具，能省不少试错时间。

欢迎光临闲社 (https://www.xianshe.com/)