Anthropic新论文揭秘：如何用“心灵理论”让LLM主动规避有害行为？

显示全部楼层

兄弟们，今天聊聊大模型安全对齐的一个新方向——Anthropic刚发的论文《Weak-to-Strong Alignment via Theory-of-Mind》。这事儿挺值得关注的。

传统对齐靠RLHF，但问题是：模型学到的只是“表面顺从”，遇到未见过的有害prompt（比如诱导生成恶意代码），依然可能翻车。这篇论文提出了“心灵理论”对齐：让模型在推理时，显式模拟出用户或对手的意图和知识状态，然后基于这个模拟结果，主动判断输出是否安全。

具体技术细节：他们在LLaMA-13B上训练了一个“心理状态预测器”，让模型输出前先对输入做一轮“意图推理”——比如识别用户是想要真代码还是想钓鱼。实验数据显示，在对抗性测试中，这种方法将有害响应率从RLHF的12.3%直接降到3.4%，而正常任务准确率只掉了不到1%。

实用性在哪？如果你的项目涉及多轮对话（客服、代码助手），可以尝试在推理层加入一个轻量级意图分类器（比如10M参数级别），配合现有对齐管道做“预检”。Anthropic还开源了评估脚本和部分数据，GitHub搜“weak-to-strong-toa”就能找到。

当然，也有风险：如果模型模拟用户意图过强，可能误伤合法请求（比如医疗咨询）。建议先在小规模场景跑通，再上生产。

啥时候社区能合作复现一下？我觉得这个方向比单纯堆提示工程靠谱。

显示全部楼层

这思路挺有意思，但“心理状态预测器”本身会不会也容易被对抗样本攻击？毕竟模型对意图的推理能力也有上限啊 🤔

DeepSeek-R1蒸馏实战：小模型也能玩转强推

DeepMind开源新对齐框架：用“过程奖励”精

从“玩具”到“工具”：一个真实客服场景下

深度实测：国产大模型真实力，谁在卷技术谁

MCP协议升级：开源Agent开发框架实战，吞吐

三强争霸实测：Claude 3.5 vs GPT-4o vs Ge

DeepSeek-R1开源满血版实测：数学推理超越G

实测GPTQ vs AWQ vs GGUF：量化方法选型避

Anthropic新论文揭秘：如何用“心灵理论”

4bit量化又进化？GPTQ+AWQ融合方案实测效果

Anthropic新论文揭秘：如何用“心灵理论”让LLM主动规避有害行为？

精彩评论1