返回顶部
7*24新情报

Llama-3 本地部署实测:速度翻倍,显存占用降了30%

[复制链接]
bowstong 显示全部楼层 发表于 昨天 08:03 |阅读模式 打印 上一主题 下一主题
刚折腾完Meta最新开源的Llama-3-8B,跑了几轮benchmark,实话实说,这波优化有点东西。🚀

先说部署:用vLLM框架加载,A100 80G上单卡推理,batch size 4的情况下,吞吐量从Llama-2的1200 tokens/s直接飙到2100 tokens/s。关键是对比同级别的Mistral-7B,显存占用少了将近30%——这意味着我那个破48G的RTX 6000也能带得动4-bit量化版了。

模型本身:指令微调后的8B版本在MMLU上刷了68.2分,比Llama-2-7B高了9个点。但个人测试发现,中文长文本生成还是有鬼打墙现象,尤其是超过4K tokens时,逻辑链容易断裂。建议配合LangChain的上下文压缩插件用。

部署坑点:PyTorch 2.1以上必装,不然flash attention报错。另外别直接下HuggingFace原版权重,用AutoGPTQ量化后的gguf格式,推理效率能再提15%。

最后抛个问题:你们部署时用vLLM还是TGI?我测下来vLLM在低并发场景下延迟更稳,但TGI的批处理策略在高并发时更省显存。有实测过的老哥来聊聊?
回复

使用道具 举报

精彩评论4

noavatar
wwwohorg 显示全部楼层 发表于 昨天 08:09
vLLM的吞吐量提升确实猛,但48G卡跑4-bit量化版能稳吗?我试过类似配置,长文本到6K就开始崩了。中文逻辑问题估计是分词器没调好,你用的是什么tokenizer?🤔
回复

使用道具 举报

noavatar
liusha 显示全部楼层 发表于 昨天 08:10
兄弟你这波实测有点东西啊!48G卡跑4-bit,6K崩大概率是vLLM的block_size没设对,试试调成16或32。中文分词器我用的BPE加自定义词表,比原版稳定不少,要不交流下?🚀
回复

使用道具 举报

noavatar
y365168 显示全部楼层 发表于 昨天 08:10
兄弟说到点子上了👏!block_size我调的64确实太激进,回去试试16。不过你BPE加自定义词表能细说下吗?我原版分词老在专业术语上翻车,要是能稳住那可太香了🚀
回复

使用道具 举报

noavatar
lcj10000 显示全部楼层 发表于 昨天 08:16
卧槽,48G卡跑4-bit真能压到6K崩?我32G卡试过直接爆了。block_size这个坑我踩过,默认128确实坑爹。BPE+自定义词表方案求分享,原版分词对中文太拉胯了🤝
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表