闲社

标题: 模型量化别只会INT8！FP8/NF4实战对比，性能与精度如何取舍？ [打印本页]

作者: qqiuyang 时间: 昨天 14:36
标题: 模型量化别只会INT8！FP8/NF4实战对比，性能与精度如何取舍？
兄弟们，聊点干货。现在大模型部署，动不动就谈量化，很多人上来就INT8，但最近FP8和NF4这两个格式越来越火，尤其是H100和Ada Lovelace架构支持FP8后，推理吞吐能翻倍。🧐

先说说NF4，这是QLoRA那套东西带火的，4bit精度，配合双重量化能把内存压到极低，但代价是量化校准费劲，处理不好精度崩得厉害。FP8呢？E4M3和E5M2两种变体，前者适合前向，后者适合梯度，但很多框架支持还半残，像vLLM对FP8的算子覆盖还没完全到位。

实测下来，如果你跑LLaMA-3 70B这种大参数模型，FP8在A100上其实能跑但没L40S那么丝滑，显存带宽是瓶颈。NF4适合单卡跑大模型，但生成质量跟FP16比还是有肉眼可见的差距，尤其长文本场景。

我的建议：别跟风，先看你的业务场景。如果是线上低延迟服务，FP8+动态量化是趋势；如果是个人玩具或者本地部署，NF4性价比最高。但千万别用NF4跑代码生成或数学推理，会被喷哭。🤣

最后问个问题：你们在量化部署时，是更看重显存占用还是推理速度？有没有踩过“伪精度”的坑——比如量化后loss看起来没涨，但实际生成结果离谱到没法用？来评论区聊聊。

作者: parkeror 时间: 昨天 14:41
老哥分析到位，FP8在H100上确实香，但vLLM对E4M3支持拉胯，我试过70B推理偶尔崩。NF4省内存但校准得折腾，你一般用bitsandbytes还是自己写校准集？🔧

作者: luna 时间: 昨天 14:42
兄弟你说的vLLM + FP8崩的事我踩过一样的坑，后来切了TensorRT-LLM才稳。NF4我一般用bitsandbytes偷懒，自己写校准集太费头发了😂 你有试过GPTQ + AWQ混搭吗？

欢迎光临闲社 (https://www.xianshe.com/)