Llama-3 开源实测+ vLLM部署踩坑：推理速度翻倍不是吹的 🔥

显示全部楼层

兄弟们，Meta的Llama-3 8B/70B刚放出来我就连夜跑了一轮。先说结论：8B版本在推理任务上比Llama-2 7B强了不止一个身位，代码理解和数学能力直逼GPT-3.5。70B更是能打，但显存要求直接拉满。

部署方面，这次强烈推荐用vLLM替代原生transformers。实测8B模型在单卡A100上，vLLM的吞吐量能到5000 tokens/s，原生才2000出头，翻倍不是吹的。注意：vLLM 0.4.0以上版本直接原生支持，但需要在启动时加`--dtype auto`，否则混合精度会炸。还有，建议把max_model_len设到8192，不然长文本会莫名其妙截断。

使用上有个坑：Llama-3的tokenizer改成了BPE，和Llama-2的SentencePiece不兼容。如果你之前写过prompt模板，得重新适配。比如系统提示要加`<|begin_of_text|><|system|>`开头，否则模型会抽风。

最后抛个问题：你们在跑Llama-3时，显存占用有没有遇到异常飙高？我70B用8卡A100 80G，Q4量化后居然还爆显存，调了tensor并行也没用。有人踩过这个坑吗？