兄弟们,今天聊个硬核的。DeepMind上周五在arXiv上发了篇论文,把“模型安全对齐”这事儿玩出了新花样——基于“对抗式自博弈”的RLHF改进版,代号“SPA”。这事儿不火,但我觉得真值得关注。
**具体技术细节**:传统RLHF靠人类反馈,但人容易累、效率低、还带偏见。SPA直接让两个LLM对掐:一个当“红队”专门生成恶意/越狱prompt,一个当“蓝队”负责防御并输出安全回复。两模型在对抗中互相进化,每轮迭代都用PPO优化。实验数据很实在:在HarmBench数据集上,Llama-3-8B经SPA训练后,攻击成功率从62%降到25%,安全得分飙升37%。
**实操价值**:对中小团队来说,SPA最大的好处是省人力。你不需要雇10个标注员去筛有害样本,跑几个自动化脚本就能完成对齐训练。代码已开源,Github搜“DeepMind-SPA”就有。建议做RAG或Agent的朋友重点关注——Agent场景下模型容易被prompt注入,这个框架能直接套用。
**小吐槽**:论文里说只用单卡A100就能跑8B模型对齐,但我实测需要双卡,显存峰值接近48GB。另外,红队模型如果初始太弱,迭代容易崩,得先用少量人工数据预训练几轮。总体瑕不掩瑜,推荐细读。 |