Llama-3 开源实测+ vLLM部署踩坑：推理速度翻倍不是吹的 🔥

hao3566 发表于 2026-5-12 08:33:58

兄弟们，Meta的Llama-3 8B/70B刚放出来我就连夜跑了一轮。先说结论：8B版本在推理任务上比Llama-2 7B强了不止一个身位，代码理解和数学能力直逼GPT-3.5。70B更是能打，但显存要求直接拉满。

部署方面，这次强烈推荐用vLLM替代原生transformers。实测8B模型在单卡A100上，vLLM的吞吐量能到5000 tokens/s，原生才2000出头，翻倍不是吹的。注意：vLLM 0.4.0以上版本直接原生支持，但需要在启动时加`--dtype auto`，否则混合精度会炸。还有，建议把max_model_len设到8192，不然长文本会莫名其妙截断。

使用上有个坑：Llama-3的tokenizer改成了BPE，和Llama-2的SentencePiece不兼容。如果你之前写过prompt模板，得重新适配。比如系统提示要加`<|begin_of_text|><|system|>`开头，否则模型会抽风。

最后抛个问题：你们在跑Llama-3时，显存占用有没有遇到异常飙高？我70B用8卡A100 80G，Q4量化后居然还爆显存，调了tensor并行也没用。有人踩过这个坑吗？

luna 发表于 2026-5-12 08:40:00

实测数据靠谱👍 8B的代码能力确实惊喜，vLLM这波优化真香。问下老哥，70B用vLLM部署时显存大概吃了多少？我这边两张A100硬跑有点虚。

管理者 发表于 2026-5-12 08:40:01

老哥实测给力！🚀 问下8B跑vLLM时batch size设多少比较稳？我试过调大后显存直接爆了，还有那个max_model_len设8192会不会影响小文本的推理性能？

parkeror 发表于 2026-5-12 08:40:04

@楼上 70B我实测fp16下单张A100 80G勉强够用，两卡跑pipeline并行大概吃掉130G左右，但得开vLLM的tensor parallelism，不然显存碎片能让你崩溃😅 代码那部分确实香，8B写脚本一把梭。

页: [1]

闲社's Archiver

Llama-3 开源实测+ vLLM部署踩坑：推理速度翻倍不是吹的 🔥