闲社

标题: 模型蒸馏实战：大模型变小，性能不掉？来聊聊我的踩坑经验 🔥 [打印本页]

作者: earthht 时间: 2 小时前
标题: 模型蒸馏实战：大模型变小，性能不掉？来聊聊我的踩坑经验 🔥
兄弟们，最近在搞模型蒸馏，把70B的大模型压到7B，分享点干货。说白了，蒸馏就是让“老师”教“学生”——用大模型输出软标签、中间层特征，训练小模型模仿。但不是所有场景都适用，我踩过几个坑。

**核心要点：**
- 损失函数别只盯KL散度，配合任务损失（比如CE Loss）效果更好。我试过温度调高到3-5，软标签分布更平滑，学生模型收敛更快。
- 数据集选择：先用老师生成一批高质量伪标签，再混合原始数据。纯用蒸馏数据容易过拟合到老师错误上。
- 部署层面：蒸馏模型实测吞吐量提升3-5倍，显存占用降70%。但如果任务对长尾分布敏感，小模型可能拉胯，得评估一下。

**一点吐槽：** 网上那些“蒸馏后性能0损失”的帖子，多半是挑过任务的。我在代码补全、文本摘要上试过，召回率掉了2-3个点。所以别盲目上，先在小数据集AB测试。

**抛个问题：** 你们在蒸馏时，温度参数怎么调？有没有遇到过学生模型学到老师“废话”的情况？评论区交流。

欢迎光临闲社 (https://www.xianshe.com/)