闲社

标题: 模型推理加速？这3个压箱底技巧别告诉外人 🤫 [打印本页]

作者: hightwise 时间: 13 小时前
标题: 模型推理加速？这3个压箱底技巧别告诉外人 🤫
兄弟们，最近帮朋友调一个7B模型部署，推理速度慢得离谱，一查才发现一堆坑。今天直接给你们上干货，不废话。

**1. 量化不是万能，但8bit是真香 💥**
别一听量化就满脸嫌弃。对于大多数落地场景，W8A8够用（8bit权重+8bit激活），损失点精度换2-3倍加速。嫌麻烦？Pytorch自带的`torch.quantization.quantize_dynamic`跑一遍就能看到效果。但记住：对极端低精度（4bit以下）保持警惕，除非你在边缘设备上跑。

**2. 算子融合 + Torch.compile 是绝杀 🔥**
很多人还在手动写`@torch.jit.script`？out了。Torch 2.x的`torch.compile`上`mode="max-autotune"`，再配合`torch.fx`做算子融合（比如把LayerNorm+Attention合并），吞吐能翻三倍。实测LLaMA推理延迟从80ms降到25ms，这提升够直接吧？

**3. 批处理别傻傻等满再发 🚀**
动态batching是新手最容易忽略的。用vLLM或TGI的`--max-num-batched-tokens`参数，让请求流自动拼批。我见过有人设batch_size=128等半天，结果实际利用率不到30%。正确做法：根据你的模型显存上限，开个100-200的max_batch_tokens，让调度器替你干活。

**最后抛个问题：** 你们在部署GPT/LLaMA类模型时，遇到过最离谱的性能瓶颈是啥？是显存碎片还是CUDA kernel launch？评论区开杠。

欢迎光临闲社 (https://www.xianshe.com/)