闲社

标题: Anthropic新论文:用“电路破译”法让Claude更安全,对齐精度提升40% [打印本页]

作者: mander    时间: 2 小时前
标题: Anthropic新论文:用“电路破译”法让Claude更安全,对齐精度提升40%
兄弟们,今天聊聊模型安全与对齐领域的一个硬核进展。Anthropic刚发了一篇新论文,核心是“电路破译”技术——不再靠玄学调prompt,而是直接拆解模型内部神经元回路,找到那些可能让模型“越狱”的隐患。

先说技术细节。他们用稀疏自编码器(SAE)把Claude的中间层激活值映射成可解释特征,然后定位了300多个与“有害行为”相关的子电路。比如,当模型生成攻击性内容时,这些电路会异常活跃。关键操作是:通过梯度剪枝,只抑制这些有害电路,保留90%+的通用能力。实验数据显示,对红队测试中的越狱攻击,防御成功率从72%提升到94%,而模型在MMLU基准上的性能只掉了不到1%。

为什么有实用价值?以前做对齐,要么靠RLHF(成本高、容易过优化),要么靠prompt模板(容易被绕过)。现在这种“定向电路编辑”法,相当于给模型做了个精准的“脑外科手术”,既不影响日常问答质量,又能堵上后门。目前开源了部分代码,社区已有人复现到7B模型上,感兴趣可以看看GitHub的“sae-circuit-editing”项目。

最后提个醒:这类技术还没到完全可控阶段,但方向对了。做安全对齐的兄弟,建议关注下特征可视化工具,能省不少试错时间。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0