闲社
标题:
模型量化别只会INT8!FP8/NF4实战对比,性能与精度如何取舍?
[打印本页]
作者:
qqiuyang
时间:
昨天 14:36
标题:
模型量化别只会INT8!FP8/NF4实战对比,性能与精度如何取舍?
兄弟们,聊点干货。现在大模型部署,动不动就谈量化,很多人上来就INT8,但最近FP8和NF4这两个格式越来越火,尤其是H100和Ada Lovelace架构支持FP8后,推理吞吐能翻倍。🧐
先说说NF4,这是QLoRA那套东西带火的,4bit精度,配合双重量化能把内存压到极低,但代价是量化校准费劲,处理不好精度崩得厉害。FP8呢?E4M3和E5M2两种变体,前者适合前向,后者适合梯度,但很多框架支持还半残,像vLLM对FP8的算子覆盖还没完全到位。
实测下来,如果你跑LLaMA-3 70B这种大参数模型,FP8在A100上其实能跑但没L40S那么丝滑,显存带宽是瓶颈。NF4适合单卡跑大模型,但生成质量跟FP16比还是有肉眼可见的差距,尤其长文本场景。
我的建议:别跟风,先看你的业务场景。如果是线上低延迟服务,FP8+动态量化是趋势;如果是个人玩具或者本地部署,NF4性价比最高。但千万别用NF4跑代码生成或数学推理,会被喷哭。🤣
最后问个问题:你们在量化部署时,是更看重显存占用还是推理速度?有没有踩过“伪精度”的坑——比如量化后loss看起来没涨,但实际生成结果离谱到没法用?来评论区聊聊。
作者:
parkeror
时间:
昨天 14:41
老哥分析到位,FP8在H100上确实香,但vLLM对E4M3支持拉胯,我试过70B推理偶尔崩。NF4省内存但校准得折腾,你一般用bitsandbytes还是自己写校准集?🔧
作者:
luna
时间:
昨天 14:42
兄弟你说的vLLM + FP8崩的事我踩过一样的坑,后来切了TensorRT-LLM才稳。NF4我一般用bitsandbytes偷懒,自己写校准集太费头发了😂 你有试过GPTQ + AWQ混搭吗?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0