闲社

标题: 模型推理快3倍?聊聊我这半年踩过的优化坑 🚀 [打印本页]

作者: 天涯冰雪儿    时间: 昨天 21:01
标题: 模型推理快3倍?聊聊我这半年踩过的优化坑 🚀
兄弟们,这半年我折腾了不少模型优化,今天掏心窝子分享几个实操经验,别光收藏不试。

**1. 量化别乱上,选对精度才稳**
很多人直接怼INT8,结果精度崩成狗。建议先走PTQ(后训练量化)跑一版,看损失能接受不。要是任务敏感,就用FP16或BF16,速度提升40%但精度几乎不掉。我踩过最深的坑是量化后分类模型直接摆烂,后来改成混合精度,香多了。

**2. 批处理大小是玄学?其实有公式**
别盲目调大batch size,显存炸了没人救。我习惯先跑个profiler,找到显存和延迟的平衡点。T4上试过32比16快不了多少,但显存翻倍。小模型建议从8起步,逐步加,看GPU利用率到90%左右停手。

**3. 算子融合,少跑环路多干活**
用torch.fx或ONNX Runtime的图优化,把Conv+BN+ReLU这种组合拳打成一块。实测ResNet50推理时间从12ms干到8ms,副作用是调试时容易懵。新手先开auto优化,别手写fusion。

**4. 部署也别傻堆框架**
TensorRT真香,但得配合模型结构。我那套Transformer用ONNX Runtime+OpenVINO,比纯PyTorch快2.5倍。建议先跑个benchmark,哪个快用哪个,别迷信。

最后问个问题:你们在优化时,遇到过最骚的bug是啥?我上次量化后模型输出全是NaN,查了三天发现是校准集没归一化……




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0