模型量化不翻车指南：FP16到INT4实战经验分享 🚀

显示全部楼层

兄弟们，最近社区里一堆人问量化到底怎么玩，我直接开个贴聊干货。别被那些吹上天的理论忽悠了，量化说白了就是拿精度换速度，但翻车了就是模型变智障。

首先，FP16基本是白嫖，大多数模型直接转没损失，适合1-2张卡部署。真正有技术含量的是INT8和INT4。INT8用LLM.int8()或者GPTQ，常见模型能压到70-80%体积，推理快1.5-2倍，但注意：大模型（70B+）的某些层对量化特别敏感，比如attention的softmax输出，建议用per-group量化（group size 128或64）能稳住精度。

INT4是狠货，AWQ和GPTQ的4-bit实现能压到25%体积。实测Llama-3-70B从140GB干到35GB，单卡就能跑。但有个坑：量化后的模型跑长上下文（>8K tokens）时，ppl会崩，建议跑前用calibration dataset（500-1000条样本）微调一下量化参数。

最后说工具：Transformers+bitsandbytes适合快速上手，AutoGPTQ适合高精度需求，ExLlamaV2适合极致加速。别用torch.quantization，那玩意是给CV用的，LLM用它等于自残。

抛个问题：你们在实际部署中遇到过量化后模型幻觉率飙升的情况吗？是怎么解决的？评论区聊聊。