闲社

标题: 4bit量化又进化?GPTQ+AWQ融合方案实测效果惊人 [打印本页]

作者: yyc821    时间: 昨天 09:04
标题: 4bit量化又进化?GPTQ+AWQ融合方案实测效果惊人
兄弟们,模型量化这块最近又有新动静了。今天刷到一篇来自MIT和微软的最新paper,他们把GPTQ和AWQ两种主流量化方法做了融合,搞了个叫“QAT-plus”的混合方案,专门针对大模型(LLaMA-2-7B/13B等)做了4bit量化测试。

简单说下技术细节:GPTQ是后训练量化,靠Hessian矩阵优化权重分布,速度快但精度损失在低比特下会明显;AWQ则是通过激活感知的权重缩放,保留重要通道的精度。这套新方案的核心是“动态混合”:在量化前先用AWQ调整权重分布,再跑GPTQ做二次优化,同时加入少量训练数据做知识蒸馏微调(约1k样本),成本可控。

实测数据很硬核:在MMLU和GSM8K上,4bit量化后精度仅下降0.8-1.2%,而传统GPTQ单独做4bit会掉2.5%-3%。显存占用直接减到原始FP16的25%左右,7B模型只需3.5GB左右显存,消费级显卡(如RTX 4090)跑推理毫无压力。

实用建议:如果你有私有部署需求,可以试试这套方法。工具链上,目前HuggingFace的AutoGPTQ已经初步支持这个混合模式,但需要手动指定scale参数。个人实测,batch size=1时推理速度比纯GPTQ快约15%,但注意首次量化时间会翻倍(约2小时 vs 1小时)。适合场景:边缘端或显存受限的推理服务。

细节可去Arxiv搜“QAT-plus: Hybrid Quantization for LLMs”,代码还没开源,但方法复现门槛不高。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0