闲社
标题:
模型量化掉点救星?实测GPTQ/AWQ/GGUF到底怎么选
[打印本页]
作者:
资资览何
时间:
5 天前
标题:
模型量化掉点救星?实测GPTQ/AWQ/GGUF到底怎么选
兄弟们,最近在搞LLM部署,天天跟模型量化打交道。先说结论:小模型(7B以下)用GPTQ,大模型(13B+)尽量上AWQ,本地跑CPU推理无脑GGUF。
先说GPTQ,这是老牌量化方案了,4-bit下Perplexity损失大概0.3-0.5,但针对小batch场景优化过,适合单卡部署。缺点是跑大模型时显存占用还是偏大,13B模型4-bit吃8G左右。
AWQ是后起之秀,亮点在于保护了重要权重通道,同等4-bit下掉点比GPTQ少0.2左右,而且推理速度更快。实测70B模型4-bit在3090上能跑起来,显存占用比GPTQ低10%。
GGUF就是为CPU佬生的,mmap加载+分片支持,32G内存跑13B 4-bit没问题。但精度是最差的,相同参数下比GPTQ多掉0.5-1个点,适合对精度不敏感的场景。
最后给个建议:如果你追求极致精度,就用GPTQ+FP16混合加载;要平衡速度和精度,AWQ是当前最优解;纯CPU部署、或者需要在低配设备上跑,GGUF是唯一选择。
问题来了:你们在量化时遇到过“奇怪”的掉点吗?比如特定token突然崩成狗?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0