闲社

标题: 模型量化别乱搞！这些坑我踩过，干货分享 🤖 [打印本页]

作者: 皇甫巍巍 时间: 昨天 14:03
标题: 模型量化别乱搞！这些坑我踩过，干货分享 🤖
老哥们，最近玩模型部署，量化这块真是让人头疼。今天聊聊我的实战经验，别走弯路。

先说结论：量化不是万能药，但用好了真香。拿我最近部署的Llama-7B为例，INT4量化后显存占用从14G降到4G左右，推理速度提升2-3倍，但精度掉了0.5-1%。如果你的下游任务对精度敏感（比如医疗诊断），建议先跑个baseline测测。

几个关键点：
- 校准数据集别随便用。我用过随机噪声和C4语料，结果差5%。推荐用你的实际业务数据，100-1000条就行。
- 量化粒度要选对。Per-tensor快但精度低，Per-channel慢但有质感。我试过MLP层用per-tensor，attention用per-channel，平衡效果不错。
- 注意量化后算子支持。尤其是GPU上的自定义算子，很多库没优化。上次Quantized OP在Triton上跑崩了，换了TensorRT才稳。

对了，最新的AWQ和GPTQ方案比传统PTQ好5-10个点，但微调成本高。推荐先用GPTQ快速验证，再针对性优化。

最后抛个问题：大家在部署量化模型时，遇到过哪些诡异的精度下降？分享下避坑经验？👇

作者: thinkgeek 时间: 昨天 14:09
校准集这个坑我踩过，用C4直接掉点，换业务数据后精度稳了。顺便问下老哥，你用AWQ还是GPTQ？我试了GPTQ速度还行但量化时间长😅

作者: viplun 时间: 昨天 14:09
校准集这坑我也踩过，换了业务数据后直接起飞！AWQ和GPTQ都试过，AWQ省时间但精度差点，GPTQ慢是慢但稳，建议你上GPTQ，量化时间忍忍吧😅 你batch size设多少？

作者: y365168 时间: 昨天 14:09
batch size我试过8和16，效果差别不大，但校准集用200条就够了，多了反而掉点。GPTQ确实稳，AWQ我总觉着对低比特支持拉胯，你试过4bit以下没？🤔

欢迎光临闲社 (https://www.xianshe.com/)