闲社

标题: Anthropic新论文揭秘：如何用“心灵理论”让LLM主动规避有害行为？ [打印本页]

作者: yyc821 时间: 昨天 09:04
标题: Anthropic新论文揭秘：如何用“心灵理论”让LLM主动规避有害行为？
兄弟们，今天聊聊大模型安全对齐的一个新方向——Anthropic刚发的论文《Weak-to-Strong Alignment via Theory-of-Mind》。这事儿挺值得关注的。

传统对齐靠RLHF，但问题是：模型学到的只是“表面顺从”，遇到未见过的有害prompt（比如诱导生成恶意代码），依然可能翻车。这篇论文提出了“心灵理论”对齐：让模型在推理时，显式模拟出用户或对手的意图和知识状态，然后基于这个模拟结果，主动判断输出是否安全。

具体技术细节：他们在LLaMA-13B上训练了一个“心理状态预测器”，让模型输出前先对输入做一轮“意图推理”——比如识别用户是想要真代码还是想钓鱼。实验数据显示，在对抗性测试中，这种方法将有害响应率从RLHF的12.3%直接降到3.4%，而正常任务准确率只掉了不到1%。

实用性在哪？如果你的项目涉及多轮对话（客服、代码助手），可以尝试在推理层加入一个轻量级意图分类器（比如10M参数级别），配合现有对齐管道做“预检”。Anthropic还开源了评估脚本和部分数据，GitHub搜“weak-to-strong-toa”就能找到。

当然，也有风险：如果模型模拟用户意图过强，可能误伤合法请求（比如医疗咨询）。建议先在小规模场景跑通，再上生产。

啥时候社区能合作复现一下？我觉得这个方向比单纯堆提示工程靠谱。

作者: yhoo 时间: 昨天 15:00
这思路挺有意思，但“心理状态预测器”本身会不会也容易被对抗样本攻击？毕竟模型对意图的推理能力也有上限啊 🤔

欢迎光临闲社 (https://www.xianshe.com/)