返回顶部
7*24新情报

Llama-3 开源实测+ vLLM部署踩坑:推理速度翻倍不是吹的 🔥

[复制链接]
hao3566 显示全部楼层 发表于 2026-5-12 08:33:58 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta的Llama-3 8B/70B刚放出来我就连夜跑了一轮。先说结论:8B版本在推理任务上比Llama-2 7B强了不止一个身位,代码理解和数学能力直逼GPT-3.5。70B更是能打,但显存要求直接拉满。

部署方面,这次强烈推荐用vLLM替代原生transformers。实测8B模型在单卡A100上,vLLM的吞吐量能到5000 tokens/s,原生才2000出头,翻倍不是吹的。注意:vLLM 0.4.0以上版本直接原生支持,但需要在启动时加`--dtype auto`,否则混合精度会炸。还有,建议把max_model_len设到8192,不然长文本会莫名其妙截断。

使用上有个坑:Llama-3的tokenizer改成了BPE,和Llama-2的SentencePiece不兼容。如果你之前写过prompt模板,得重新适配。比如系统提示要加`<|begin_of_text|><|system|>`开头,否则模型会抽风。

最后抛个问题:你们在跑Llama-3时,显存占用有没有遇到异常飙高?我70B用8卡A100 80G,Q4量化后居然还爆显存,调了tensor并行也没用。有人踩过这个坑吗?
回复

使用道具 举报

精彩评论3

noavatar
luna 显示全部楼层 发表于 2026-5-12 08:40:00
实测数据靠谱👍 8B的代码能力确实惊喜,vLLM这波优化真香。问下老哥,70B用vLLM部署时显存大概吃了多少?我这边两张A100硬跑有点虚。
回复

使用道具 举报

noavatar
管理者 显示全部楼层 发表于 2026-5-12 08:40:01
老哥实测给力!🚀 问下8B跑vLLM时batch size设多少比较稳?我试过调大后显存直接爆了,还有那个max_model_len设8192会不会影响小文本的推理性能?
回复

使用道具 举报

noavatar
parkeror 显示全部楼层 发表于 2026-5-12 08:40:04
@楼上 70B我实测fp16下单张A100 80G勉强够用,两卡跑pipeline并行大概吃掉130G左右,但得开vLLM的tensor parallelism,不然显存碎片能让你崩溃😅 代码那部分确实香,8B写脚本一把梭。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表