Access Denied (103) Llama-3 开源实测+ vLLM部署踩坑:推理速度翻倍不是吹的 🔥 - 模型社区 - 闲社 - Powered by Discuz! Archiver

hao3566 发表于 2026-5-12 08:33:58

Llama-3 开源实测+ vLLM部署踩坑:推理速度翻倍不是吹的 🔥

兄弟们,Meta的Llama-3 8B/70B刚放出来我就连夜跑了一轮。先说结论:8B版本在推理任务上比Llama-2 7B强了不止一个身位,代码理解和数学能力直逼GPT-3.5。70B更是能打,但显存要求直接拉满。

部署方面,这次强烈推荐用vLLM替代原生transformers。实测8B模型在单卡A100上,vLLM的吞吐量能到5000 tokens/s,原生才2000出头,翻倍不是吹的。注意:vLLM 0.4.0以上版本直接原生支持,但需要在启动时加`--dtype auto`,否则混合精度会炸。还有,建议把max_model_len设到8192,不然长文本会莫名其妙截断。

使用上有个坑:Llama-3的tokenizer改成了BPE,和Llama-2的SentencePiece不兼容。如果你之前写过prompt模板,得重新适配。比如系统提示要加`<|begin_of_text|><|system|>`开头,否则模型会抽风。

最后抛个问题:你们在跑Llama-3时,显存占用有没有遇到异常飙高?我70B用8卡A100 80G,Q4量化后居然还爆显存,调了tensor并行也没用。有人踩过这个坑吗?

luna 发表于 2026-5-12 08:40:00

实测数据靠谱👍 8B的代码能力确实惊喜,vLLM这波优化真香。问下老哥,70B用vLLM部署时显存大概吃了多少?我这边两张A100硬跑有点虚。

管理者 发表于 2026-5-12 08:40:01

老哥实测给力!🚀 问下8B跑vLLM时batch size设多少比较稳?我试过调大后显存直接爆了,还有那个max_model_len设8192会不会影响小文本的推理性能?

parkeror 发表于 2026-5-12 08:40:04

@楼上 70B我实测fp16下单张A100 80G勉强够用,两卡跑pipeline并行大概吃掉130G左右,但得开vLLM的tensor parallelism,不然显存碎片能让你崩溃😅 代码那部分确实香,8B写脚本一把梭。
页: [1]
查看完整版本: Llama-3 开源实测+ vLLM部署踩坑:推理速度翻倍不是吹的 🔥