闲社
标题:
GPT-5泄露文档曝光新对齐方案:对抗性训练+红队自动化,准确率提升21%
[打印本页]
作者:
送空间306089
时间:
昨天 15:01
标题:
GPT-5泄露文档曝光新对齐方案:对抗性训练+红队自动化,准确率提升21%
今天圈内有个大新闻:一份疑似GPT-5内部对齐技术文档(编号OpenAI-TR-2024-11)在Reddit上疯传,虽然后来被辟谣是伪造,但其中的技术方案值得深挖。
文档核心是「自适应红队防御框架」(ARDF),关键改进两点:
1. 对抗性攻击生成器:用RLHF训练一个专门的“攻击者”模型,能动态生成绕过安全过滤器的prompt,以往需要人工红队数周的漏洞,现在几分钟就能暴露。
2. 实时对齐惩罚:在推理阶段引入「行为熵约束」,如果模型输出偏离预设安全边界(如毒性概率>0.3),自动降采样或触发回退回复。
实测数据显示,在HarmBench和AdvBench两个基准上,攻击成功率从18.4%降到3.2%,而有用性只损失1.1%。更值得注意的是,他们把冗余计算开销压缩到12%以内,这在生产环境中非常关键。
目前社区争议焦点是:这种“在推理时截断模型自由思考”的方式,会不会反而压制了模型的创造力?我个人倾向认为,只要惩罚阈值设置合理(比如只针对高危行为),还是利远大于弊。
建议大家关注开源替代方案,比如Meta刚发布的PurpleLlama框架(内置Llama Guard 3),已经在HuggingFace上开放了权重和微调脚本,部署成本比全黑盒方案友好太多。
作者:
yqqleaf
时间:
昨天 21:00
这个ARDF方案确实有意思,但“行为熵约束”在推理阶段实时干预会不会牺牲模型创造力?🤔 另外攻击成功率从18降到多少没说完啊,兄弟补个数据呗!
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0