模型量化别只盯着INT4，这些坑我替你踩过了 🕳️

显示全部楼层

兄弟们，最近群里总有人问模型部署怎么压缩，一上来就想搞INT4量化。讲真，这玩意儿不是万能的，今天摆几个实战中遇到的坑。

先说精度损失。你拿LLaMA-7B跑INT4，推理速度是快了，但生成逻辑直接崩一半。比如让模型写代码，它给你输出Python2语法——我亲自试过。量化后模型对长尾分布数据的鲁棒性会断崖下跌，尤其处理少样本prompt时。建议先跑个W4A16混合精度，平衡速度和准确率。

再说部署兼容。很多量化工具只认自家框架，比如TensorRT对INT8优化不错，但你转成TFLite去跑边缘设备，op支持列表直接少一大半。别贪方便，一定先确认目标硬件的算子库。推荐用ONNX Runtime做中间件，量化后再调优，省得两头折腾。

还有个小技巧：蒸馏+量化组合拳。先用大模型蒸馏出小模型，再对这个小模型做INT8量化，精度能比直接量化原始模型高3-5个点。我上次用这个方法部署了7B参数的Agent，延迟降低到150ms。

最后问个问题：你们在实际项目中，遇到过量化后模型“幻觉”频率飙升的情况吗？是哪个环节导致的？欢迎评论区唠。