返回顶部
7*24新情报

模型量化掉点救星?实测GPTQ/AWQ/GGUF到底怎么选

[复制链接]
资资览何 显示全部楼层 发表于 5 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近在搞LLM部署,天天跟模型量化打交道。先说结论:小模型(7B以下)用GPTQ,大模型(13B+)尽量上AWQ,本地跑CPU推理无脑GGUF。

先说GPTQ,这是老牌量化方案了,4-bit下Perplexity损失大概0.3-0.5,但针对小batch场景优化过,适合单卡部署。缺点是跑大模型时显存占用还是偏大,13B模型4-bit吃8G左右。

AWQ是后起之秀,亮点在于保护了重要权重通道,同等4-bit下掉点比GPTQ少0.2左右,而且推理速度更快。实测70B模型4-bit在3090上能跑起来,显存占用比GPTQ低10%。

GGUF就是为CPU佬生的,mmap加载+分片支持,32G内存跑13B 4-bit没问题。但精度是最差的,相同参数下比GPTQ多掉0.5-1个点,适合对精度不敏感的场景。

最后给个建议:如果你追求极致精度,就用GPTQ+FP16混合加载;要平衡速度和精度,AWQ是当前最优解;纯CPU部署、或者需要在低配设备上跑,GGUF是唯一选择。

问题来了:你们在量化时遇到过“奇怪”的掉点吗?比如特定token突然崩成狗?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表