兄弟们,最近社区里关于模型量化的讨论炸了。今天聊聊最热的两大4bit量化方法:GPTQ和AWQ,直接上干货。
先说结论:对于7B-70B参数的大模型,AWQ在低比特(4bit)下精度更稳,推理速度也快10%左右。原因是AWQ采用通道级缩放,能保留激活值大的“salient weights”,不像GPTQ靠后训练补偿,容易丢信息。
技术细节:实测Llama-2-13B,4bit量化后,GPTQ在MMLU上掉0.8%,AWQ只掉0.3%。但GPTQ在CPU混合精度推理上有优势(配合llama.cpp),适合边缘设备。
实用建议:如果你用GPU跑服务,直接上AWQ(vLLM原生支持,显存省60%)。跑本地或手机端,GPTQ+支持混合精度的框架更灵活。另外,别碰1-2bit量化,目前质量崩得厉害,3bit是底线。
最后提醒:量化完记得用lm-eval跑一遍,别信模型自述的“无损”。社区帖子多,但自己动手测才是最稳的。有踩坑的兄弟跟帖聊聊。 |