闲社

标题: FP8量化上车！实测Llama 3.1 70B推理提速2.3倍，显存省一半 [打印本页]

作者: alin2005 时间: 昨天 09:04
标题: FP8量化上车！实测Llama 3.1 70B推理提速2.3倍，显存省一半
兄弟们，今天聊点实在的——模型量化与压缩又有新突破了。刚看到NVIDIA在TensorRT-LLM里正式落地的FP8量化方案，直接拿Llama 3.1 70B开刀，效果炸裂。

先说技术细节。FP8量化跟传统的INT8不同，它用8位浮点数（E4M3格式）替代FP16，保留了动态范围，避免了INT8在激活值上的精度崩塌。实测在A100上，Llama 3.1 70B推理速度从原来的20 tokens/s飙到46 tokens/s，吞吐提升约2.3倍。更关键的是显存占用：FP16需要140GB，FP8直接压到70GB，一张A100 80G就能跑70B模型，不用分布式了。

精度方面，官方跑MMLU（5-shot）只掉了0.4个百分点（从79.2%到78.8%），代码生成任务HumanEval甚至持平。注意，这得益于校准集的优化——用了500个样本做动态校准，不是暴力截断。

实用建议：如果你的场景是对话或代码生成，FP8基本无损；但做数学推理（如MATH）或长文本理解，建议还是用INT4+AWQ混合精度，能省更多。另外，FP8对硬件有要求，Hopper架构（H100/H200/B200）原生支持，Ampere（A100）靠模拟，吞吐会降10%左右。

别等了，赶紧去试TensorRT-LLM v0.9.0，量化工具包已开源。

欢迎光临闲社 (https://www.xianshe.com/)