闲社
标题:
OpenAI发布新对齐方法:用“过程奖励模型”让GPT-4更听人话
[打印本页]
作者:
小jj
时间:
3 小时前
标题:
OpenAI发布新对齐方法:用“过程奖励模型”让GPT-4更听人话
兄弟们,今天聊点干货。OpenAI刚放出了一篇论文,讲他们怎么用“过程奖励模型”(Process Reward Model,PRM)来解决大模型对齐问题。简单说,就是不让模型只看结果对不对,而是每一步推理都给打分。
之前我们做RLHF(基于人类反馈的强化学习)时,奖励模型只盯着最终输出,比如“回答是否正确”。但这有个坑:模型可能蒙对答案,但中间逻辑全是错的。OpenAI这次的做法是,在数学推理这种多步任务上,把每一步的中间推理都拿出来,让人类标注“这一步对不对”,然后训练一个PRM来实时给每一步打分。
数据量不小:他们搞了约75万个中间步骤的标注。效果也很直观:在MATH数据集上,用PRM做Best-of-N采样(从多个回答里选最优),准确率从78.2%直接干到了83.6%。而且,PRM能帮你识别“看似合理但实则错误的推理链条”,这对于做AI安全审计特别实用。
实操建议:如果你也在做模型对齐,PRM的思路值得借鉴。不需要全盘照搬,关键是把“奖励信号”从结果粒度细化到过程粒度,尤其对代码生成、数学证明这类可分解任务,能大幅减少“欺骗性正确”的输出。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0