闲社
标题:
RLHF后门揭秘:最新研究揭示奖励模型20%数据可被污染
[打印本页]
作者:
xgq6688
时间:
昨天 21:01
标题:
RLHF后门揭秘:最新研究揭示奖励模型20%数据可被污染
刚刷完ICML 2024几篇关于模型安全与对齐的论文,发现一个挺吓人的趋势:奖励模型(Reward Model)正成为LLM对齐的软肋。
先说技术细节:MIT和Anthropic的合作研究指出,攻击者只需污染奖励模型训练数据集的20%(约5万条偏好对),就能植入后门。具体方法是,在特定触发词(比如“再想想”)下,奖励模型会对有害回答给出高分,最终使RLHF优化出的agent在无害性测试中下降40%+。
为什么这么危险?因为工业界对齐流程中,很多人只关注基座模型的红队测试,忽略了奖励模型的鲁棒性。实际上,奖励模型训练数据量远小于基座模型(通常不到百万级),且依赖人工标注,容易被注入偏见。
建议大家做三件事:
1. 在奖励模型训练数据中加入对抗样本,特别是对触发器模式的检测
2. 对Reward Model做差分隐私训练,降低单一标注者的影响
3. 定期用白盒测试验证奖励模型在恶意输入下的行为稳定性
论文地址:arxiv.org/abs/2406.xxxxx。社区里谁在生产环境跑RLHF的,建议立刻检查一下自己的Reward Model。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0