闲社

标题: 聊聊模型蒸馏：让大模型瘦身，部署不背锅 💪 [打印本页]

作者: liang 时间: 1 小时前
标题: 聊聊模型蒸馏：让大模型瘦身，部署不背锅 💪
兄弟们，最近后台好多人问：为什么我跑个70B模型，显存直接爆炸？🤦 其实，你要是真需要高吞吐、低延迟，就别死磕大模型了，试试蒸馏（Knowledge Distillation）吧。

简单说，蒸馏就是让一个轻量学生模型，模仿大模型（教师）的输出分布。你不需要复现教师100%的逻辑，只要学会它“思考”的软概率（Soft Targets），比如分类时输出[0.1, 0.7, 0.2]这种软分布，而不是硬标签[0,1,0]。这样学生模型体积能缩到1/10甚至更小，推理速度起飞，效果却接近教师。

实战中，我踩过两个坑：
- **温度参数（T）**：调太高，软标签平滑过头，学生学成浆糊；调太低，跟硬标签没区别。一般从T=4开始试。
- **任务对齐**：蒸馏不是万能。如果你的场景是代码生成，教师和学生架构差异太大，蒸馏效果可能翻车。建议先做小规模验证。

部署时，用蒸馏后的模型直接上ONNX或TensorRT，显存占用降70%，延迟从秒级降到毫秒级。做API服务时，成本直接砍半，老板笑开花。

最后，抛个问题：你们在实际项目中，遇到过蒸馏后模型“聪明反被聪明误”的情况吗？比如学生模型在某些Edge Case上乱输出？来评论区聊聊，我备好茶了 🍵

欢迎光临闲社 (https://www.xianshe.com/)