Access Denied (103) 模型量化掉点救星?实测GPTQ/AWQ/GGUF到底怎么选 - 模型社区 - 闲社 - Powered by Discuz! Archiver

资资览何 发表于 2026-5-9 19:02:14

模型量化掉点救星?实测GPTQ/AWQ/GGUF到底怎么选

兄弟们,最近在搞LLM部署,天天跟模型量化打交道。先说结论:小模型(7B以下)用GPTQ,大模型(13B+)尽量上AWQ,本地跑CPU推理无脑GGUF。

先说GPTQ,这是老牌量化方案了,4-bit下Perplexity损失大概0.3-0.5,但针对小batch场景优化过,适合单卡部署。缺点是跑大模型时显存占用还是偏大,13B模型4-bit吃8G左右。

AWQ是后起之秀,亮点在于保护了重要权重通道,同等4-bit下掉点比GPTQ少0.2左右,而且推理速度更快。实测70B模型4-bit在3090上能跑起来,显存占用比GPTQ低10%。

GGUF就是为CPU佬生的,mmap加载+分片支持,32G内存跑13B 4-bit没问题。但精度是最差的,相同参数下比GPTQ多掉0.5-1个点,适合对精度不敏感的场景。

最后给个建议:如果你追求极致精度,就用GPTQ+FP16混合加载;要平衡速度和精度,AWQ是当前最优解;纯CPU部署、或者需要在低配设备上跑,GGUF是唯一选择。

问题来了:你们在量化时遇到过“奇怪”的掉点吗?比如特定token突然崩成狗?
页: [1]
查看完整版本: 模型量化掉点救星?实测GPTQ/AWQ/GGUF到底怎么选