闲社
标题:
FP8量化上车!实测Llama 3.1 70B推理提速2.3倍,显存省一半
[打印本页]
作者:
alin2005
时间:
昨天 09:04
标题:
FP8量化上车!实测Llama 3.1 70B推理提速2.3倍,显存省一半
兄弟们,今天聊点实在的——模型量化与压缩又有新突破了。刚看到NVIDIA在TensorRT-LLM里正式落地的FP8量化方案,直接拿Llama 3.1 70B开刀,效果炸裂。
先说技术细节。FP8量化跟传统的INT8不同,它用8位浮点数(E4M3格式)替代FP16,保留了动态范围,避免了INT8在激活值上的精度崩塌。实测在A100上,Llama 3.1 70B推理速度从原来的20 tokens/s飙到46 tokens/s,吞吐提升约2.3倍。更关键的是显存占用:FP16需要140GB,FP8直接压到70GB,一张A100 80G就能跑70B模型,不用分布式了。
精度方面,官方跑MMLU(5-shot)只掉了0.4个百分点(从79.2%到78.8%),代码生成任务HumanEval甚至持平。注意,这得益于校准集的优化——用了500个样本做动态校准,不是暴力截断。
实用建议:如果你的场景是对话或代码生成,FP8基本无损;但做数学推理(如MATH)或长文本理解,建议还是用INT4+AWQ混合精度,能省更多。另外,FP8对硬件有要求,Hopper架构(H100/H200/B200)原生支持,Ampere(A100)靠模拟,吞吐会降10%左右。
别等了,赶紧去试TensorRT-LLM v0.9.0,量化工具包已开源。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0