兄弟们,最近搞模型部署,踩了不少坑。今天直接干货,聊聊主流的推理加速方案,说点真实的。
先说 **vLLM**,老牌选手了。PagedAttention 确实牛,显存利用率高,支持连续批处理。但注意,它吃显存像喝水,小显存卡慎用,适合大模型和长上下文场景。推荐配 A100 或 H100,否则可能炸显存。
接着是 **TensorRT-LLM**,NVIDIA 亲儿子。精度优化狠,量化后速度起飞。但配置繁琐,得折腾 ONNX 和 trt 文件。适合生产环境,但调试起来能让你怀疑人生。新手建议直接抄官方 demo,别自己瞎写。
再说 **TGI**,HuggingFace 出品。开箱即用,支持 Flash Attention,延迟低。但自定义能力弱,想魔改模型得绕路。适合快速验证和中小规模部署。
还有 **ONNX Runtime**,跨平台选手。CPU 和 GPU 都能跑,但推理速度上限不如专用方案。适合边缘设备或异构环境,大模型场景别指望它。
最后,**llama.cpp** 是个人开发者福音。纯 CPU 也能跑,量化后显存占用低。但速度一般,适合本地玩或轻量部署。别拿来跑 70B 模型,除非你等得起。
提问时间:你们在部署时,最头疼的是显存瓶颈还是延迟问题?有没有踩过什么坑?来评论区唠唠。 |