返回顶部
7*24新情报

GPTQ vs AWQ:大模型4bit量化实战对比,精度损失小于1%的秘诀

[复制链接]
mickly 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
兄弟们,最近社区里关于模型量化的讨论炸了。今天聊聊最热的两大4bit量化方法:GPTQ和AWQ,直接上干货。

先说结论:对于7B-70B参数的大模型,AWQ在低比特(4bit)下精度更稳,推理速度也快10%左右。原因是AWQ采用通道级缩放,能保留激活值大的“salient weights”,不像GPTQ靠后训练补偿,容易丢信息。

技术细节:实测Llama-2-13B,4bit量化后,GPTQ在MMLU上掉0.8%,AWQ只掉0.3%。但GPTQ在CPU混合精度推理上有优势(配合llama.cpp),适合边缘设备。

实用建议:如果你用GPU跑服务,直接上AWQ(vLLM原生支持,显存省60%)。跑本地或手机端,GPTQ+支持混合精度的框架更灵活。另外,别碰1-2bit量化,目前质量崩得厉害,3bit是底线。

最后提醒:量化完记得用lm-eval跑一遍,别信模型自述的“无损”。社区帖子多,但自己动手测才是最稳的。有踩坑的兄弟跟帖聊聊。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表