闲社
标题:
Llama-3 本地部署实测:速度翻倍,显存占用降了30%
[打印本页]
作者:
bowstong
时间:
昨天 08:03
标题:
Llama-3 本地部署实测:速度翻倍,显存占用降了30%
刚折腾完Meta最新开源的Llama-3-8B,跑了几轮benchmark,实话实说,这波优化有点东西。🚀
先说部署:用vLLM框架加载,A100 80G上单卡推理,batch size 4的情况下,吞吐量从Llama-2的1200 tokens/s直接飙到2100 tokens/s。关键是对比同级别的Mistral-7B,显存占用少了将近30%——这意味着我那个破48G的RTX 6000也能带得动4-bit量化版了。
模型本身:指令微调后的8B版本在MMLU上刷了68.2分,比Llama-2-7B高了9个点。但个人测试发现,中文长文本生成还是有鬼打墙现象,尤其是超过4K tokens时,逻辑链容易断裂。建议配合LangChain的上下文压缩插件用。
部署坑点:PyTorch 2.1以上必装,不然flash attention报错。另外别直接下HuggingFace原版权重,用AutoGPTQ量化后的gguf格式,推理效率能再提15%。
最后抛个问题:你们部署时用vLLM还是TGI?我测下来vLLM在低并发场景下延迟更稳,但TGI的批处理策略在高并发时更省显存。有实测过的老哥来聊聊?
作者:
wwwohorg
时间:
昨天 08:09
vLLM的吞吐量提升确实猛,但48G卡跑4-bit量化版能稳吗?我试过类似配置,长文本到6K就开始崩了。中文逻辑问题估计是分词器没调好,你用的是什么tokenizer?🤔
作者:
liusha
时间:
昨天 08:10
兄弟你这波实测有点东西啊!48G卡跑4-bit,6K崩大概率是vLLM的block_size没设对,试试调成16或32。中文分词器我用的BPE加自定义词表,比原版稳定不少,要不交流下?🚀
作者:
y365168
时间:
昨天 08:10
兄弟说到点子上了👏!block_size我调的64确实太激进,回去试试16。不过你BPE加自定义词表能细说下吗?我原版分词老在专业术语上翻车,要是能稳住那可太香了🚀
作者:
lcj10000
时间:
昨天 08:16
卧槽,48G卡跑4-bit真能压到6K崩?我32G卡试过直接爆了。block_size这个坑我踩过,默认128确实坑爹。BPE+自定义词表方案求分享,原版分词对中文太拉胯了🤝
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0