兄弟们,今天聊个硬核的——模型蒸馏。最近DeepSeek团队放出了基于DeepSeek-R1蒸馏的Qwen-7B和Llama-8B,效果很炸:7B模型在数学推理(MATH)上达到55.4分,几乎追平原版R1的71.2%水平,但参数量只有1/10。
技术细节上,这次蒸馏没走传统“软标签+KL散度”路线,而是直接用R1生成的300K长链思维(Chain-of-Thought)数据做监督微调。关键点在于:保留推理路径中的反思和纠错步骤,而不是只输出最终答案。这让小模型学会了“怎么想”,而不是“背答案”。
实际部署时,7B模型在消费级显卡上跑一个数学题只要3秒,而R1需要12秒。对于资源紧张的团队,这是真正的“平替”。训练成本更是感人:用8张A100跑一天,而R1原版训练要上千张卡周级时间。
经验之谈:蒸馏时别只追求精度,要关注推理链的多样性。R1生成的CoT中有些“冗余思考”其实是有用的,比如自我质疑部分能提升模型鲁棒性。建议保留20%的“走弯路”样本,否则小模型容易陷入过拟合。
最后,代码和权重都已开源,想上手的直接去HuggingFace搜“DeepSeek-R1-Distill”。 |