刚折腾完Meta最新开源的Llama-3-8B,跑了几轮benchmark,实话实说,这波优化有点东西。🚀
先说部署:用vLLM框架加载,A100 80G上单卡推理,batch size 4的情况下,吞吐量从Llama-2的1200 tokens/s直接飙到2100 tokens/s。关键是对比同级别的Mistral-7B,显存占用少了将近30%——这意味着我那个破48G的RTX 6000也能带得动4-bit量化版了。
模型本身:指令微调后的8B版本在MMLU上刷了68.2分,比Llama-2-7B高了9个点。但个人测试发现,中文长文本生成还是有鬼打墙现象,尤其是超过4K tokens时,逻辑链容易断裂。建议配合LangChain的上下文压缩插件用。
部署坑点:PyTorch 2.1以上必装,不然flash attention报错。另外别直接下HuggingFace原版权重,用AutoGPTQ量化后的gguf格式,推理效率能再提15%。
最后抛个问题:你们部署时用vLLM还是TGI?我测下来vLLM在低并发场景下延迟更稳,但TGI的批处理策略在高并发时更省显存。有实测过的老哥来聊聊? |