闲社

标题: OpenAI发布新对齐方法：用“过程奖励模型”让GPT-4更听人话 [打印本页]

作者: 小jj 时间: 3 小时前
标题: OpenAI发布新对齐方法：用“过程奖励模型”让GPT-4更听人话
兄弟们，今天聊点干货。OpenAI刚放出了一篇论文，讲他们怎么用“过程奖励模型”（Process Reward Model，PRM）来解决大模型对齐问题。简单说，就是不让模型只看结果对不对，而是每一步推理都给打分。

之前我们做RLHF（基于人类反馈的强化学习）时，奖励模型只盯着最终输出，比如“回答是否正确”。但这有个坑：模型可能蒙对答案，但中间逻辑全是错的。OpenAI这次的做法是，在数学推理这种多步任务上，把每一步的中间推理都拿出来，让人类标注“这一步对不对”，然后训练一个PRM来实时给每一步打分。

数据量不小：他们搞了约75万个中间步骤的标注。效果也很直观：在MATH数据集上，用PRM做Best-of-N采样（从多个回答里选最优），准确率从78.2%直接干到了83.6%。而且，PRM能帮你识别“看似合理但实则错误的推理链条”，这对于做AI安全审计特别实用。

实操建议：如果你也在做模型对齐，PRM的思路值得借鉴。不需要全盘照搬，关键是把“奖励信号”从结果粒度细化到过程粒度，尤其对代码生成、数学证明这类可分解任务，能大幅减少“欺骗性正确”的输出。

欢迎光临闲社 (https://www.xianshe.com/)