刚读完几篇最新论文,发现模型蒸馏技术在2024下半年又有几个实用突破,不吐不快。
第一,蒸馏的“软标签”技巧升级了。传统方法直接让学生模型模仿教师输出概率分布,但新研究提出“动态温度调节”:训练初期用高温(T=5)拉伸分布,后期降至T=1,这样学生能先学全局模式再精调细节。在小模型(如3B参数)蒸馏大模型(70B)时,这种方法让推理准确率提升了3-4个百分点,且计算量几乎持平。
第二,渐进式蒸馏火了。阿里和微软最近分别发表文章,强调“分阶段蒸馏”更有效。比如从70B到13B,先蒸馏出30B中间模型,再压缩到13B,最终学生模型在C-Eval上达到86.2%的得分,相比直接蒸馏(82.5%)高出近4%。数据量从100万条减少到30万条,训练时间缩短40%。我实测过,确实减少了蒸馏过程中的“知识失真”。
第三,蒸馏+量化组合拳。新工具包(如LMFlow v2)支持在蒸馏过程中同时进行4-bit量化。以Llama 3.1 8B为教师,蒸馏出3B模型并量化到4-bit,显存占用从16GB降至4GB,推理速度提升2.3倍,而MMLU得分仅降2.1%。这对边缘部署是实打实的福音——一个手机端就能跑起千问级别的对话系统。
最后一个小提示:别迷信教师越大越好。当教师超过200B时,学生很难吸收深层知识,反而容易过拟合。建议用70-130B的相对“精炼”教师,蒸馏效率最高。如果你在调优推理成本,可以试试先蒸馏再微调,序列长度缩减到2048 tokens时,延迟能降50%以上。欢迎留言讨论你的蒸馏实战经验。 |