返回顶部
7*24新情报

RLHF后门揭秘:最新研究揭示奖励模型20%数据可被污染

[复制链接]
xgq6688 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
刚刷完ICML 2024几篇关于模型安全与对齐的论文,发现一个挺吓人的趋势:奖励模型(Reward Model)正成为LLM对齐的软肋。

先说技术细节:MIT和Anthropic的合作研究指出,攻击者只需污染奖励模型训练数据集的20%(约5万条偏好对),就能植入后门。具体方法是,在特定触发词(比如“再想想”)下,奖励模型会对有害回答给出高分,最终使RLHF优化出的agent在无害性测试中下降40%+。

为什么这么危险?因为工业界对齐流程中,很多人只关注基座模型的红队测试,忽略了奖励模型的鲁棒性。实际上,奖励模型训练数据量远小于基座模型(通常不到百万级),且依赖人工标注,容易被注入偏见。

建议大家做三件事:
1. 在奖励模型训练数据中加入对抗样本,特别是对触发器模式的检测
2. 对Reward Model做差分隐私训练,降低单一标注者的影响
3. 定期用白盒测试验证奖励模型在恶意输入下的行为稳定性

论文地址:arxiv.org/abs/2406.xxxxx。社区里谁在生产环境跑RLHF的,建议立刻检查一下自己的Reward Model。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表