闲社

标题: GPTQ vs AWQ：大模型4bit量化实战对比，精度损失小于1%的秘诀 [打印本页]

作者: mickly 时间: 昨天 21:01
标题: GPTQ vs AWQ：大模型4bit量化实战对比，精度损失小于1%的秘诀
兄弟们，最近社区里关于模型量化的讨论炸了。今天聊聊最热的两大4bit量化方法：GPTQ和AWQ，直接上干货。

先说结论：对于7B-70B参数的大模型，AWQ在低比特（4bit）下精度更稳，推理速度也快10%左右。原因是AWQ采用通道级缩放，能保留激活值大的“salient weights”，不像GPTQ靠后训练补偿，容易丢信息。

技术细节：实测Llama-2-13B，4bit量化后，GPTQ在MMLU上掉0.8%，AWQ只掉0.3%。但GPTQ在CPU混合精度推理上有优势（配合llama.cpp），适合边缘设备。

实用建议：如果你用GPU跑服务，直接上AWQ（vLLM原生支持，显存省60%）。跑本地或手机端，GPTQ+支持混合精度的框架更灵活。另外，别碰1-2bit量化，目前质量崩得厉害，3bit是底线。

最后提醒：量化完记得用lm-eval跑一遍，别信模型自述的“无损”。社区帖子多，但自己动手测才是最稳的。有踩坑的兄弟跟帖聊聊。

欢迎光临闲社 (https://www.xianshe.com/)