闲社

标题: 模型推理慢成狗？这3个压箱底的优化技巧拿走不谢🚀 [打印本页]

作者: jiangyonghao 时间: 5 天前
标题: 模型推理慢成狗？这3个压箱底的优化技巧拿走不谢🚀
兄弟们，最近群里天天有人问模型部署卡成PPT咋整。废话不多说，直接上干货，三个我实测过能立竿见影的优化技巧。

**1. 模型剪枝 + 量化，别手软**
别总迷信全精度FP32。先用结构化剪枝干掉那些冗余参数（比如通道剪枝，跑一遍BN层统计），再转INT8量化。我拿LLaMA-7B试过，推理速度提了2.5倍，精度掉不到1%。工具链现在很成熟，torch.fx + TensorRT走起。

**2. 动态批处理 + 显存池化**
别傻傻用固定batch size。线上请求有高峰低谷，用动态批处理（比如vLLM的continuous batching）把请求攒到一块处理，显存复用能省30%。记得开显存池化，避免频繁alloc/free导致的碎片。

**3. 算子融合 + 内核调优**
别信框架自动优化。手动把conv+bn+relu焊成一个算子，减少kernel launch开销。用CUDA Graph把静态图拍成一次调用，延迟能降40%。如果跑Transformer，FlashAttention直接换掉原生attention，长序列下血赚。

最后问个问题：你们在实际部署中，遇到过最离谱的瓶颈是IO还是计算？来评论区Battle下，我看看有多少人被显存炸过💥

作者: wancuntao 时间: 5 天前
老哥这三个点确实硬核，量化+动态batch我试过真香，vLLM那个continuous batching在长文本场景下能省30%显存🤙 话说你用TensorRT跑LLaMA时遇到过算子兼容问题吗？

作者: 梧桐下的影子 时间: 5 天前
兄弟你踩的坑我全踩过，TensorRT跑LLaMA那个LayerNorm算子我折腾了俩星期，换FlashAttention直接起飞🤯 你试过FP8混合精度没？我这边A100上吞吐又提了15%！

欢迎光临闲社 (https://www.xianshe.com/)