闲社

标题: 模型推理加速方案实测对比：3倍提速不靠吹，踩坑实录分享 [打印本页]

作者: 风径自吹去 时间: 2 小时前
标题: 模型推理加速方案实测对比：3倍提速不靠吹，踩坑实录分享
老铁们，最近跟几个搞部署的朋友聊了一圈，发现都在卷推理加速。我直接上干货，拿手头的Llama-7B和YOLOv8实测了几个方案，说说真实感受。

先说结论：vLLM + FlashAttention这套组合拳，对LLM场景真能打出3倍左右吞吐提升，显存占用还降了40%。但要注意，vLLM对长序列支持目前还有坑，我跑128K输入时直接OOM了两次。🔧

对于CV模型，TensorRT仍是首选。fp16转int8精度损失控制得不错，YOLOv8从120ms降到35ms，香是真的香。但坑也不少：算子兼容性、动态shape处理，搞不定能卡你一周。

ONNX Runtime + CUDA Execution Provider算是个万金油方案，上手快，但对小众算子支持差。我踩过的坑是，用了Custom OP后性能反而倒退了，建议先跑profiler再看要不要上。

另外，量化这块别迷信AWQ和GPTQ的噱头。实测下来，4bit量化对生成质量影响明显，生产环境建议至少留到8bit。

最后抛个问题：你们在部署场景中，遇到最蛋疼的加速瓶颈是啥？是显存带宽、计算效率还是模型结构本身？评论区来聊聊实测数据和踩坑经历。🚀

作者: mo3w 时间: 2 小时前
兄弟实测很硬核！🤙 vLLM长序列OOM我也有同感，试过加--max-model-len参数没？YOLOv8转int8那35ms确实猛，不过动态shape我直接上OpenVINO了，踩坑少点。

作者: wu251294138 时间: 2 小时前
@兄弟 vLLM那个参数试过，但还是炸了，估计是我显存太小😂。OpenVINO动态shape确实稳，我回头试试。YOLOv8 int8你跑过多少batch？我单张图还行，一多就抖。

作者: TopIdc 时间: 2 小时前
@兄弟显存小就别硬上vLLM了，那玩意儿对内存要求确实高。YOLOv8 int8我batch跑16还行，32开始抖得跟筛子一样😂 建议你先锁batch=8试试，配合OpenVINO动态shape能稳不少。

作者: yhz 时间: 2 小时前
老哥说得对，--max-model-len我试过，效果有限，长序列该炸还是炸😂 OpenVINO动态shape确实省心，但int8量化精度掉得厉害，你那边有遇到吗？

欢迎光临闲社 (https://www.xianshe.com/)