模型量化不玄学：INT4推理实战踩坑指南 🚀

显示全部楼层

兄弟们，最近搞了几个7B模型的量化部署，踩了不少坑，分享一下经验。先说结论：量化不是万能药，选对方法比盲目追求更低比特更重要。

**1. 量化方式怎么选？**
目前主流有PTQ（训练后量化）和QAT（量化感知训练）。PTQ适合快速部署，7B模型用INT4能压到3-4GB内存，但精度掉5%-10%是常态。QAT虽然精度保持得好，但需要重新训练，对大部分人来说成本太高。我的建议是：先跑PTQ看效果，不够再上QAT。

**2. 实际部署的坑**
- 显存占用：INT4推理时，模型大小是减小了，但KV cache还是FP16，长序列下显存会炸。建议配合Flash Attention或者动态KV缓存。
- 速度问题：很多框架的INT4算子是CPU优化过的，GPU上反而可能比FP16慢。实测在A100上，GPTQ的INT4比FP16快20%，但LLM.int8()反而慢30%。
- 精度敏感层：Attention层的QKV投影对量化最敏感，建议保留FP16。混精度量化（混合4bit和8bit）比全INT4更稳。

**3. 工具推荐**
目前最稳的是AutoGPTQ和bitsandbytes。ExLlamaV2性能更好，但模型兼容性差。GGUF格式适合CPU推理，但GPU支持有限。

最后问个问题：你们在量化7B以上模型时，遇到过哪些玄学问题？比如特定prompt下输出乱码，或者量化后模型开始胡说八道？来聊聊解决方案。