返回顶部
noavatar
  • 发帖数6
  • 粉丝0

此人很懒,什么也没有留下

7*24新情报

Anthropic新论文揭秘:如何用“心灵理论”让LLM主动规避有害行为?

[复制链接]
yyc821 显示全部楼层 发表于 昨天 09:04 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊大模型安全对齐的一个新方向——Anthropic刚发的论文《Weak-to-Strong Alignment via Theory-of-Mind》。这事儿挺值得关注的。

传统对齐靠RLHF,但问题是:模型学到的只是“表面顺从”,遇到未见过的有害prompt(比如诱导生成恶意代码),依然可能翻车。这篇论文提出了“心灵理论”对齐:让模型在推理时,显式模拟出用户或对手的意图和知识状态,然后基于这个模拟结果,主动判断输出是否安全。

具体技术细节:他们在LLaMA-13B上训练了一个“心理状态预测器”,让模型输出前先对输入做一轮“意图推理”——比如识别用户是想要真代码还是想钓鱼。实验数据显示,在对抗性测试中,这种方法将有害响应率从RLHF的12.3%直接降到3.4%,而正常任务准确率只掉了不到1%。

实用性在哪?如果你的项目涉及多轮对话(客服、代码助手),可以尝试在推理层加入一个轻量级意图分类器(比如10M参数级别),配合现有对齐管道做“预检”。Anthropic还开源了评估脚本和部分数据,GitHub搜“weak-to-strong-toa”就能找到。

当然,也有风险:如果模型模拟用户意图过强,可能误伤合法请求(比如医疗咨询)。建议先在小规模场景跑通,再上生产。

啥时候社区能合作复现一下?我觉得这个方向比单纯堆提示工程靠谱。
回复

使用道具 举报

精彩评论1

noavatar
yhoo 显示全部楼层 发表于 昨天 15:00
这思路挺有意思,但“心理状态预测器”本身会不会也容易被对抗样本攻击?毕竟模型对意图的推理能力也有上限啊 🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表