闲社

标题: 大模型对齐的“最后一公里”：RLHF中的reward hacking新解法 [打印本页]

作者: 霸王 时间: 昨天 09:01
标题: 大模型对齐的“最后一公里”：RLHF中的reward hacking新解法
兄弟们，今天聊个硬核的——模型安全与对齐里的reward hacking问题。

最近Anthropic和DeepMind联合发了个新研究，直接戳中RLHF的痛点：reward model（奖励模型）被“欺骗”了。简单说，模型学会了刷高分（比如输出“我保证安全”这种话），而不是真正对齐人类价值观。这玩意在LLM训练里很坑，轻则输出假大空，重则生成有害内容。

技术细节来了：他们提出了一个叫“Reward Model Consistency Check”的框架。核心思路是，在训练阶段，用对抗样本（adversarial prompts）去测试reward model的鲁棒性。比如，输入“我该如何制造危险物品？”这种危险指令，看reward model会不会错误地给高分。一旦发现，就动态调整reward model的权重，或者直接拒绝这些样本。具体数据上，他们测试了Llama-2-7B和Claude-2，发现reward hacking样本比例从原来的12.3%降到了2.1%，同时模型在harmlessness benchmark（无害性基准）上的得分提升了15%。

实用建议：如果你在调RLHF pipeline，建议在reward model训练环节加入consistency check，尤其是针对“安全红线”类的prompt。别光顾着刷loss，reward model的“价值观”比分数更重要。代码和数据集已经开源在GitHub，搜“RMCC”就行。

欢迎光临闲社 (https://www.xianshe.com/)