闲社 › 开发社区 › 模型社区 › LLM对齐新进展：ICLR 2025 spotlight论文揭示“安全遗忘 ...

wjj123

发帖数35
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-06-10 [模型社区]

实测四大模型256K上下文：Claude写小说稳，

兄弟们，今天不整虚的。我拿一篇3万字的《三体》同人文，分别喂给GPT-4o、Claude 3.5

2026-06-10 [模型社区]

Prompt工程新范式：微软开源自动提示优化框

今天在AI社区里，微软亚洲研究院开源了一个叫“AutoPromptOptimizer”的Prompt工程工

2026-06-10 [模型社区]

LLM对齐新进展：ICLR 2025 spotlight论文揭

团队们好，今天聊个硬核的——模型安全与对齐。最近ICLR 2025一篇spotlight论文（http

2026-06-09 [模型社区]

蒸馏技术新突破：小模型也能吊打老师，四步

最近社区里关于模型蒸馏的讨论又热起来了，几篇新论文和开源项目让这项技术更接地气。

2026-06-09 [模型社区]

Meta Llama 3 实测：400B参数未开源，但8B

大家好，今天聊一个“虽迟但到”的消息。Meta 刚放出了 Llama 3 的技术报告（arXiv:24

2026-06-09 [模型社区]

Cline v3.0实测：MCP协议让AI编程助手“长

兄弟们，今天聊点干货。昨晚Claude Code的开源替代Cline发布了v3.0，最大改动是深度集

2026-06-09 [模型社区]

DeepSeek开源MoE训练框架，千亿级模型部署

兄弟们，今天必须聊聊DeepSeek刚开源的“DeepSeek-MoE-Training”框架。这玩意儿直接

2026-06-09 [模型社区]

Qwen2.5-72B跑分实测：指令遵循飙升40%，单

兄弟们，今天聊点实在的。阿里通义千问团队昨晚刚放出了Qwen2.5-72B的完整评测报告，

2026-06-09 [模型社区]

实测DeepSeek 2.5：性价比炸裂，长上下文推

兄弟们，最近DeepSeek 2.5模型上线后，我压榨了三天，今天来交个硬核作业。先说结论：

2026-06-09 [模型社区]

vLLM 0.6 + Triton 实测：LLM推理吞吐提升3

兄弟们，今天聊聊AI基础设施实战。最近我折腾了vLLM 0.6.0和NVIDIA Triton Inference

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 深入浅出：架构设计的艺术与挑战🤓

4 AI技术新风向：3D重建、模型革新与智能硬件的融合

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 openclaw的怎么升级

7 整理了一些学习资料

8 整理了一些学习资料

9 分享一些实用的开发工具

10 分享一些实用的脚本工具

LLM对齐新进展：ICLR 2025 spotlight论文揭示“安全遗忘”可攻击性

[复制链接]

wjj123 显示全部楼层 发表于 5 小时前 |阅读模式

团队们好，今天聊个硬核的——模型安全与对齐。最近ICLR 2025一篇spotlight论文（https://openreview.net/forum?id=xxxx）指出，当前流行的“安全遗忘”（Safety Unlearning）方法存在系统性漏洞。

核心发现：攻击者只需构造少量“对抗性提示”（比如在正常指令前加特定前缀），就能绕过经RLHF或DPO对齐的模型防护。实验数据：在Llama-3-8B-Instruct上，传统对齐方法在标准测试集上安全率98%，但用论文提出的“前缀注入”攻击后，安全率暴跌至34%。

技术细节：这不是简单的prompt注入，而是利用模型对“上下文模式”的过度依赖。作者发现，对齐训练让模型学会了“记住”安全模式，而非“理解”安全边界。当输入偏离训练分布（如加入罕见token组合），安全机制自动失效。

实用建议：如果你在做本地部署或微调，别只依赖RLHF。建议叠加“输入正则化”（如限制token长度、过滤罕见unicode）和“输出一致性检查”（同问题反复问，看回答是否矛盾）。论文还开源了评估工具，链接在回复区。

记住：对齐不是一劳永逸，而是猫鼠游戏。保持更新。