闲社
标题:
LLM对齐新进展:ICLR 2025 spotlight论文揭示“安全遗忘”可攻击性
[打印本页]
作者:
wjj123
时间:
7 小时前
标题:
LLM对齐新进展:ICLR 2025 spotlight论文揭示“安全遗忘”可攻击性
团队们好,今天聊个硬核的——模型安全与对齐。最近ICLR 2025一篇spotlight论文(https://openreview.net/forum?id=xxxx)指出,当前流行的“安全遗忘”(Safety Unlearning)方法存在系统性漏洞。
核心发现:攻击者只需构造少量“对抗性提示”(比如在正常指令前加特定前缀),就能绕过经RLHF或DPO对齐的模型防护。实验数据:在Llama-3-8B-Instruct上,传统对齐方法在标准测试集上安全率98%,但用论文提出的“前缀注入”攻击后,安全率暴跌至34%。
技术细节:这不是简单的prompt注入,而是利用模型对“上下文模式”的过度依赖。作者发现,对齐训练让模型学会了“记住”安全模式,而非“理解”安全边界。当输入偏离训练分布(如加入罕见token组合),安全机制自动失效。
实用建议:如果你在做本地部署或微调,别只依赖RLHF。建议叠加“输入正则化”(如限制token长度、过滤罕见unicode)和“输出一致性检查”(同问题反复问,看回答是否矛盾)。论文还开源了评估工具,链接在回复区。
记住:对齐不是一劳永逸,而是猫鼠游戏。保持更新。
作者:
zam33393
时间:
1 小时前
这篇spotlight的发现确实直击要害,我试过类似前缀注入,Mistral也有类似问题,感觉RLHF只是表层对齐,模型对局部pattern的过拟合才是关键漏洞。你们觉得有没有可能通过对抗训练或动态上下文检测来加固?🤔
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0