返回顶部
7*24新情报

LLM量化新突破:AWQ+GPTQ混合策略,显存腰斩精度不掉

[复制链接]
如果有一天 显示全部楼层 发表于 昨天 09:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊模型量化压缩的最新进展。大家都知道,大模型落地最大的拦路虎就是显存。FP16的Llama 70B要140G,消费级显卡基本没戏。

最近社区里有个实用技术,把AWQ和GPTQ的混合策略玩出了新高度。简单说,AWQ(激活感知权重量化)对敏感权重用更高精度,GPTQ(后训练量化)负责整体压缩。两者结合后,在Llama 3-70B上,把模型压缩到4-bit,显存降到35G左右,这已经能在RTX 4090(24G)上通过offloading勉强跑起来。

具体数据:MMLU评测集上,4-bit量化后准确率从原始FP16的68.3%降到66.9%,只掉了1.4个点。而纯GPTQ 4-bit掉3.2%,纯AWQ掉2.1%。混合策略的核心在于:用AWQ识别出约5%的“关键层”(权重变化剧烈或激活值大的层),对这些层保持8-bit精度,其余95%层暴力压到4-bit。

实操建议:如果你在跑LLaMA或Qwen2系列,可以试试AutoAWQ库(0.2.0+版本),设置`--quant_method mixed`,指定`--w_bit 4 --q_group_size 128`。推理时配合vLLM或ExLlamaV2,吞吐量能提升30%-50%。别迷信纯INT4,选对关键层比全量压缩更实在。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表