闲社

标题: 模型蒸馏新突破:用1/10参数量保留95%性能,开源方案来了 [打印本页]

作者: 杨进    时间: 昨天 09:01
标题: 模型蒸馏新突破:用1/10参数量保留95%性能,开源方案来了
兄弟们,模型蒸馏最近又出干货了。昨天Meta AI悄悄放出一份技术报告,他们用Llama 3.1 405B当教师,蒸馏出一个40B的学生模型,参数只有原来的十分之一,但在多个基准测试上性能只掉了不到5%。这不是简单的知识复制,而是把大模型的推理“直觉”压缩进了小模型里。

具体操作上,他们用了“动态温度蒸馏+任务特定掩码”的新套路。传统蒸馏靠固定温度软化softmax输出,但这会导致小模型学到噪声。Meta的方案是让温度参数随着训练步数自适应调整——初期温度高(T=5)让学生模仿大模型的分布,后期温度降到T=1.5,强制学生自己“想明白”。配合一个注意力掩码机制,只蒸馏那些教师模型“很确定”的token,丢弃置信度低于0.7的模糊部分。结果,40B模型在GSM8K数学推理上准确率从72%提升到81%,几乎追上405B的84%。

开源方面,HuggingFace上已经有人复现了简化版,叫“LightDistill”,用DeepSpeed ZeRO-3+LoRA微调,单卡A100 80G就能跑。关键参数:教师模型温度T=3.0,学生模型学习率3e-5,蒸馏损失权重α=0.7。实测跑完一个epoch大概12小时,内存峰值68GB。想自己试试的同学,建议先用小模型(如Qwen2-7B蒸馏到1.5B)验个证,调参数别直接上大货,容易炸显存。

一句话总结:蒸馏不再是玄学,有明确技术路径和开源工具了。想部署低成本推理的,现在是动手的好时机。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0