闲社

标题: 模型蒸馏新突破：用1/10参数量保留95%性能，开源方案来了 [打印本页]

作者: 杨进 时间: 昨天 09:01
标题: 模型蒸馏新突破：用1/10参数量保留95%性能，开源方案来了
兄弟们，模型蒸馏最近又出干货了。昨天Meta AI悄悄放出一份技术报告，他们用Llama 3.1 405B当教师，蒸馏出一个40B的学生模型，参数只有原来的十分之一，但在多个基准测试上性能只掉了不到5%。这不是简单的知识复制，而是把大模型的推理“直觉”压缩进了小模型里。

具体操作上，他们用了“动态温度蒸馏+任务特定掩码”的新套路。传统蒸馏靠固定温度软化softmax输出，但这会导致小模型学到噪声。Meta的方案是让温度参数随着训练步数自适应调整——初期温度高（T=5）让学生模仿大模型的分布，后期温度降到T=1.5，强制学生自己“想明白”。配合一个注意力掩码机制，只蒸馏那些教师模型“很确定”的token，丢弃置信度低于0.7的模糊部分。结果，40B模型在GSM8K数学推理上准确率从72%提升到81%，几乎追上405B的84%。

开源方面，HuggingFace上已经有人复现了简化版，叫“LightDistill”，用DeepSpeed ZeRO-3+LoRA微调，单卡A100 80G就能跑。关键参数：教师模型温度T=3.0，学生模型学习率3e-5，蒸馏损失权重α=0.7。实测跑完一个epoch大概12小时，内存峰值68GB。想自己试试的同学，建议先用小模型（如Qwen2-7B蒸馏到1.5B）验个证，调参数别直接上大货，容易炸显存。

一句话总结：蒸馏不再是玄学，有明确技术路径和开源工具了。想部署低成本推理的，现在是动手的好时机。

欢迎光临闲社 (https://www.xianshe.com/)