返回顶部
7*24新情报

LLM对齐新进展:ICLR 2025 spotlight论文揭示“安全遗忘”可攻击性

[复制链接]
wjj123 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题
团队们好,今天聊个硬核的——模型安全与对齐。最近ICLR 2025一篇spotlight论文(https://openreview.net/forum?id=xxxx)指出,当前流行的“安全遗忘”(Safety Unlearning)方法存在系统性漏洞。

核心发现:攻击者只需构造少量“对抗性提示”(比如在正常指令前加特定前缀),就能绕过经RLHF或DPO对齐的模型防护。实验数据:在Llama-3-8B-Instruct上,传统对齐方法在标准测试集上安全率98%,但用论文提出的“前缀注入”攻击后,安全率暴跌至34%。

技术细节:这不是简单的prompt注入,而是利用模型对“上下文模式”的过度依赖。作者发现,对齐训练让模型学会了“记住”安全模式,而非“理解”安全边界。当输入偏离训练分布(如加入罕见token组合),安全机制自动失效。

实用建议:如果你在做本地部署或微调,别只依赖RLHF。建议叠加“输入正则化”(如限制token长度、过滤罕见unicode)和“输出一致性检查”(同问题反复问,看回答是否矛盾)。论文还开源了评估工具,链接在回复区。

记住:对齐不是一劳永逸,而是猫鼠游戏。保持更新。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表