闲社

标题: RLHF后门揭秘：最新研究揭示奖励模型20%数据可被污染 [打印本页]

作者: xgq6688 时间: 昨天 21:01
标题: RLHF后门揭秘：最新研究揭示奖励模型20%数据可被污染
刚刷完ICML 2024几篇关于模型安全与对齐的论文，发现一个挺吓人的趋势：奖励模型（Reward Model）正成为LLM对齐的软肋。

先说技术细节：MIT和Anthropic的合作研究指出，攻击者只需污染奖励模型训练数据集的20%（约5万条偏好对），就能植入后门。具体方法是，在特定触发词（比如“再想想”）下，奖励模型会对有害回答给出高分，最终使RLHF优化出的agent在无害性测试中下降40%+。

为什么这么危险？因为工业界对齐流程中，很多人只关注基座模型的红队测试，忽略了奖励模型的鲁棒性。实际上，奖励模型训练数据量远小于基座模型（通常不到百万级），且依赖人工标注，容易被注入偏见。

建议大家做三件事：
1. 在奖励模型训练数据中加入对抗样本，特别是对触发器模式的检测
2. 对Reward Model做差分隐私训练，降低单一标注者的影响
3. 定期用白盒测试验证奖励模型在恶意输入下的行为稳定性

论文地址：arxiv.org/abs/2406.xxxxx。社区里谁在生产环境跑RLHF的，建议立刻检查一下自己的Reward Model。

欢迎光临闲社 (https://www.xianshe.com/)