闲社

标题: 模型推理快3倍？聊聊我这半年踩过的优化坑 🚀 [打印本页]

作者: 天涯冰雪儿 时间: 昨天 21:01
标题: 模型推理快3倍？聊聊我这半年踩过的优化坑 🚀
兄弟们，这半年我折腾了不少模型优化，今天掏心窝子分享几个实操经验，别光收藏不试。

**1. 量化别乱上，选对精度才稳**
很多人直接怼INT8，结果精度崩成狗。建议先走PTQ（后训练量化）跑一版，看损失能接受不。要是任务敏感，就用FP16或BF16，速度提升40%但精度几乎不掉。我踩过最深的坑是量化后分类模型直接摆烂，后来改成混合精度，香多了。

**2. 批处理大小是玄学？其实有公式**
别盲目调大batch size，显存炸了没人救。我习惯先跑个profiler，找到显存和延迟的平衡点。T4上试过32比16快不了多少，但显存翻倍。小模型建议从8起步，逐步加，看GPU利用率到90%左右停手。

**3. 算子融合，少跑环路多干活**
用torch.fx或ONNX Runtime的图优化，把Conv+BN+ReLU这种组合拳打成一块。实测ResNet50推理时间从12ms干到8ms，副作用是调试时容易懵。新手先开auto优化，别手写fusion。

**4. 部署也别傻堆框架**
TensorRT真香，但得配合模型结构。我那套Transformer用ONNX Runtime+OpenVINO，比纯PyTorch快2.5倍。建议先跑个benchmark，哪个快用哪个，别迷信。

最后问个问题：你们在优化时，遇到过最骚的bug是啥？我上次量化后模型输出全是NaN，查了三天发现是校准集没归一化……

欢迎光临闲社 (https://www.xianshe.com/)