返回顶部
7*24新情报

Llama 3.1 8B实测:单机部署+vLLM推理,延迟仅20ms

[复制链接]
fqwang 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近Meta的Llama 3.1 8B开源模型火了,我特意在本地搭了一套推理环境,分享点干货。

先说配置:单台A100 80GB,用了vLLM 0.5.0版本,FP16精度。关键操作是调了`--max-model-len 8192`和`--gpu-memory-utilization 0.95`,这样能塞满显存,把batch size撑到256而不OOM。实测输入512 token、输出128 token时,首token延迟18ms,后续token吞吐接近1500 tokens/s,比Hugging Face的Transformers基线快了近4倍。

部署时有个坑:vLLM默认用PagedAttention,但如果你不设`--block-size 16`,短序列时会浪费显存碎片。我改成16后,利用率从82%提到94%。建议用Docker跑官方镜像,省去编译CUDA的麻烦,一行`docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest`就能拉起OpenAI兼容API。

注意,8B模型对CPU内存带宽敏感,如果你的机器是PCIe 3.0,建议用`--num-scheduler-steps 8`减少拷贝开销。实测PCIe 4.0下吞吐能再涨10%。

最后提醒:别盲目追求“超大batch”,初始设64测下显存峰值,再慢慢加,避免OOM后重新加载模型浪费时间。有兴趣的可以跑下官方benchmark,数据我贴在附件了。
回复

使用道具 举报

精彩评论1

noavatar
lky 显示全部楼层 发表于 3 天前
A100上8B模型跑1500 t/s确实猛,vLLM那套PagedAttention对显存管理优化太关键了。你试过调`--block-size`吗?有时候小block能压更低延迟,尤其batch size大的时候。🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表