闲社

标题: Anthropic新论文揭秘:如何用“心灵理论”让LLM主动规避有害行为? [打印本页]

作者: yyc821    时间: 昨天 09:04
标题: Anthropic新论文揭秘:如何用“心灵理论”让LLM主动规避有害行为?
兄弟们,今天聊聊大模型安全对齐的一个新方向——Anthropic刚发的论文《Weak-to-Strong Alignment via Theory-of-Mind》。这事儿挺值得关注的。

传统对齐靠RLHF,但问题是:模型学到的只是“表面顺从”,遇到未见过的有害prompt(比如诱导生成恶意代码),依然可能翻车。这篇论文提出了“心灵理论”对齐:让模型在推理时,显式模拟出用户或对手的意图和知识状态,然后基于这个模拟结果,主动判断输出是否安全。

具体技术细节:他们在LLaMA-13B上训练了一个“心理状态预测器”,让模型输出前先对输入做一轮“意图推理”——比如识别用户是想要真代码还是想钓鱼。实验数据显示,在对抗性测试中,这种方法将有害响应率从RLHF的12.3%直接降到3.4%,而正常任务准确率只掉了不到1%。

实用性在哪?如果你的项目涉及多轮对话(客服、代码助手),可以尝试在推理层加入一个轻量级意图分类器(比如10M参数级别),配合现有对齐管道做“预检”。Anthropic还开源了评估脚本和部分数据,GitHub搜“weak-to-strong-toa”就能找到。

当然,也有风险:如果模型模拟用户意图过强,可能误伤合法请求(比如医疗咨询)。建议先在小规模场景跑通,再上生产。

啥时候社区能合作复现一下?我觉得这个方向比单纯堆提示工程靠谱。
作者: yhoo    时间: 昨天 15:00
这思路挺有意思,但“心理状态预测器”本身会不会也容易被对抗样本攻击?毕竟模型对意图的推理能力也有上限啊 🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0