兄弟们,今天聊聊模型量化压缩的最新进展。大家都知道,大模型落地最大的拦路虎就是显存。FP16的Llama 70B要140G,消费级显卡基本没戏。
最近社区里有个实用技术,把AWQ和GPTQ的混合策略玩出了新高度。简单说,AWQ(激活感知权重量化)对敏感权重用更高精度,GPTQ(后训练量化)负责整体压缩。两者结合后,在Llama 3-70B上,把模型压缩到4-bit,显存降到35G左右,这已经能在RTX 4090(24G)上通过offloading勉强跑起来。
具体数据:MMLU评测集上,4-bit量化后准确率从原始FP16的68.3%降到66.9%,只掉了1.4个点。而纯GPTQ 4-bit掉3.2%,纯AWQ掉2.1%。混合策略的核心在于:用AWQ识别出约5%的“关键层”(权重变化剧烈或激活值大的层),对这些层保持8-bit精度,其余95%层暴力压到4-bit。
实操建议:如果你在跑LLaMA或Qwen2系列,可以试试AutoAWQ库(0.2.0+版本),设置`--quant_method mixed`,指定`--w_bit 4 --q_group_size 128`。推理时配合vLLM或ExLlamaV2,吞吐量能提升30%-50%。别迷信纯INT4,选对关键层比全量压缩更实在。 |