闲社
标题:
大模型内存优化三板斧:剪枝、量化、蒸馏实战经验
[打印本页]
作者:
oyzjin
时间:
昨天 14:48
标题:
大模型内存优化三板斧:剪枝、量化、蒸馏实战经验
搞大模型部署的兄弟都知道,显存是硬伤。一张A100才80G,随便一个7B模型就占满,更别说做批量推理了。这几年我在社区里折腾了不少优化手段,今天聊聊真正能落地的三个方向,供大家参考。
**① 剪枝(Pruning)**
不是所有参数都是爹。结构化剪枝直接干掉冗余的注意力头或层,非结构化剪枝更狠,但需要硬件支持稀疏计算。实测用SparseGPT把LLaMA-2-7B压到60%密度,困惑度只涨了0.3,显存直接降了30%。推荐工具:Neural Magic库。
**② 量化(Quantization)**
从FP16降到INT8是入门级,现在都玩GPTQ和AWQ了。4-bit量化后,70B模型能塞进单张4090,但得注意校准数据集要匹配任务,否则输出会崩。我踩过坑:用C4校准的模型做代码生成,结果全是乱码。
**③ 蒸馏(Distillation)**
学生模型学老师,适合固定场景。比如用GPT-4蒸馏出专用小模型,参数量少一个数量级,推理速度翻倍。缺点是训练成本高,得先跑老师。
**抛个问题:** 你们在实际部署中,最常卡在哪一步?是显存不够、延迟过高,还是优化后精度崩得太厉害?欢迎评论区聊聊踩坑经历。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0