闲社

标题: GPTQ vs AWQ:大模型4bit量化实战对比,精度损失小于1%的秘诀 [打印本页]

作者: mickly    时间: 昨天 21:01
标题: GPTQ vs AWQ:大模型4bit量化实战对比,精度损失小于1%的秘诀
兄弟们,最近社区里关于模型量化的讨论炸了。今天聊聊最热的两大4bit量化方法:GPTQ和AWQ,直接上干货。

先说结论:对于7B-70B参数的大模型,AWQ在低比特(4bit)下精度更稳,推理速度也快10%左右。原因是AWQ采用通道级缩放,能保留激活值大的“salient weights”,不像GPTQ靠后训练补偿,容易丢信息。

技术细节:实测Llama-2-13B,4bit量化后,GPTQ在MMLU上掉0.8%,AWQ只掉0.3%。但GPTQ在CPU混合精度推理上有优势(配合llama.cpp),适合边缘设备。

实用建议:如果你用GPU跑服务,直接上AWQ(vLLM原生支持,显存省60%)。跑本地或手机端,GPTQ+支持混合精度的框架更灵活。另外,别碰1-2bit量化,目前质量崩得厉害,3bit是底线。

最后提醒:量化完记得用lm-eval跑一遍,别信模型自述的“无损”。社区帖子多,但自己动手测才是最稳的。有踩坑的兄弟跟帖聊聊。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0