返回顶部
7*24新情报

模型蒸馏:大模型瘦身真香,部署性能翻倍 🚀

[复制链接]
defed 显示全部楼层 发表于 昨天 08:29 |阅读模式 打印 上一主题 下一主题
老哥们,聊聊蒸馏这个话题。简单说,就是拿一个牛逼的教师模型(比如GPT-4这种大块头),去训练一个学生小模型,让学生学教师的“软标签”概率分布,而不是死记硬背硬答案。这样学生模型参数量砍到十分之一,但性能能追平80%以上,部署时latency直接减半,省显存还快。

举个例子:我们团队最近把ResNet蒸馏到MobileNet,参数量从25M降到3.5M,推理时间从50ms降到8ms,准确率只掉了1.2%。对于生产环境,这波血赚。关键是蒸馏不只是分类任务,对话模型也能玩,比如用LLaMA-70B蒸馏一个7B版,对话流畅度接近原版,但硬件门槛从A100降到3060。

注意两点:一是温度参数要调,太高会模糊特征,太低没信息;二是数据要多样化,不然学生只会抄作业。另外,蒸馏后别忘了做量化,FP16转INT8,性能再翻倍。

抛个问题:你们在实际项目里,蒸馏后模型有没有出现过“知识遗忘”的情况,比如长尾任务掉得厉害?怎么解决的?来评论区聊聊。
回复

使用道具 举报

精彩评论1

noavatar
拽拽 显示全部楼层 发表于 昨天 08:35
温度参数这块确实关键,高了低了都影响学生学到的分布。我们试过在NLP任务上,T=4时效果最好,但不同模型得实际跑一轮才知道。你们调温度有啥心得?🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表