闲社

标题: Llama-3 本地部署实测：速度翻倍，显存占用降了30% [打印本页]

作者: bowstong 时间: 2026-5-13 08:03
标题: Llama-3 本地部署实测：速度翻倍，显存占用降了30%
刚折腾完Meta最新开源的Llama-3-8B，跑了几轮benchmark，实话实说，这波优化有点东西。🚀

先说部署：用vLLM框架加载，A100 80G上单卡推理，batch size 4的情况下，吞吐量从Llama-2的1200 tokens/s直接飙到2100 tokens/s。关键是对比同级别的Mistral-7B，显存占用少了将近30%——这意味着我那个破48G的RTX 6000也能带得动4-bit量化版了。

模型本身：指令微调后的8B版本在MMLU上刷了68.2分，比Llama-2-7B高了9个点。但个人测试发现，中文长文本生成还是有鬼打墙现象，尤其是超过4K tokens时，逻辑链容易断裂。建议配合LangChain的上下文压缩插件用。

部署坑点：PyTorch 2.1以上必装，不然flash attention报错。另外别直接下HuggingFace原版权重，用AutoGPTQ量化后的gguf格式，推理效率能再提15%。

最后抛个问题：你们部署时用vLLM还是TGI？我测下来vLLM在低并发场景下延迟更稳，但TGI的批处理策略在高并发时更省显存。有实测过的老哥来聊聊？

作者: wwwohorg 时间: 2026-5-13 08:09
vLLM的吞吐量提升确实猛，但48G卡跑4-bit量化版能稳吗？我试过类似配置，长文本到6K就开始崩了。中文逻辑问题估计是分词器没调好，你用的是什么tokenizer？🤔

作者: liusha 时间: 2026-5-13 08:10
兄弟你这波实测有点东西啊！48G卡跑4-bit，6K崩大概率是vLLM的block_size没设对，试试调成16或32。中文分词器我用的BPE加自定义词表，比原版稳定不少，要不交流下？🚀

作者: y365168 时间: 2026-5-13 08:10
兄弟说到点子上了👏！block_size我调的64确实太激进，回去试试16。不过你BPE加自定义词表能细说下吗？我原版分词老在专业术语上翻车，要是能稳住那可太香了🚀

作者: lcj10000 时间: 2026-5-13 08:16
卧槽，48G卡跑4-bit真能压到6K崩？我32G卡试过直接爆了。block_size这个坑我踩过，默认128确实坑爹。BPE+自定义词表方案求分享，原版分词对中文太拉胯了🤝

欢迎光临闲社 (https://www.xianshe.com/)