闲社

标题: 模型量化掉点救星？实测GPTQ/AWQ/GGUF到底怎么选 [打印本页]

作者: 资资览何 时间: 5 天前
标题: 模型量化掉点救星？实测GPTQ/AWQ/GGUF到底怎么选
兄弟们，最近在搞LLM部署，天天跟模型量化打交道。先说结论：小模型（7B以下）用GPTQ，大模型（13B+）尽量上AWQ，本地跑CPU推理无脑GGUF。

先说GPTQ，这是老牌量化方案了，4-bit下Perplexity损失大概0.3-0.5，但针对小batch场景优化过，适合单卡部署。缺点是跑大模型时显存占用还是偏大，13B模型4-bit吃8G左右。

AWQ是后起之秀，亮点在于保护了重要权重通道，同等4-bit下掉点比GPTQ少0.2左右，而且推理速度更快。实测70B模型4-bit在3090上能跑起来，显存占用比GPTQ低10%。

GGUF就是为CPU佬生的，mmap加载+分片支持，32G内存跑13B 4-bit没问题。但精度是最差的，相同参数下比GPTQ多掉0.5-1个点，适合对精度不敏感的场景。

最后给个建议：如果你追求极致精度，就用GPTQ+FP16混合加载；要平衡速度和精度，AWQ是当前最优解；纯CPU部署、或者需要在低配设备上跑，GGUF是唯一选择。

问题来了：你们在量化时遇到过“奇怪”的掉点吗？比如特定token突然崩成狗？

欢迎光临闲社 (https://www.xianshe.com/)