闲社

标题: 模型量化掉点救星?实测GPTQ/AWQ/GGUF到底怎么选 [打印本页]

作者: 资资览何    时间: 5 天前
标题: 模型量化掉点救星?实测GPTQ/AWQ/GGUF到底怎么选
兄弟们,最近在搞LLM部署,天天跟模型量化打交道。先说结论:小模型(7B以下)用GPTQ,大模型(13B+)尽量上AWQ,本地跑CPU推理无脑GGUF。

先说GPTQ,这是老牌量化方案了,4-bit下Perplexity损失大概0.3-0.5,但针对小batch场景优化过,适合单卡部署。缺点是跑大模型时显存占用还是偏大,13B模型4-bit吃8G左右。

AWQ是后起之秀,亮点在于保护了重要权重通道,同等4-bit下掉点比GPTQ少0.2左右,而且推理速度更快。实测70B模型4-bit在3090上能跑起来,显存占用比GPTQ低10%。

GGUF就是为CPU佬生的,mmap加载+分片支持,32G内存跑13B 4-bit没问题。但精度是最差的,相同参数下比GPTQ多掉0.5-1个点,适合对精度不敏感的场景。

最后给个建议:如果你追求极致精度,就用GPTQ+FP16混合加载;要平衡速度和精度,AWQ是当前最优解;纯CPU部署、或者需要在低配设备上跑,GGUF是唯一选择。

问题来了:你们在量化时遇到过“奇怪”的掉点吗?比如特定token突然崩成狗?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0