兄弟们,Meta的Llama-3 8B/70B刚放出来我就连夜跑了一轮。先说结论:8B版本在推理任务上比Llama-2 7B强了不止一个身位,代码理解和数学能力直逼GPT-3.5。70B更是能打,但显存要求直接拉满。
部署方面,这次强烈推荐用vLLM替代原生transformers。实测8B模型在单卡A100上,vLLM的吞吐量能到5000 tokens/s,原生才2000出头,翻倍不是吹的。注意:vLLM 0.4.0以上版本直接原生支持,但需要在启动时加`--dtype auto`,否则混合精度会炸。还有,建议把max_model_len设到8192,不然长文本会莫名其妙截断。
使用上有个坑:Llama-3的tokenizer改成了BPE,和Llama-2的SentencePiece不兼容。如果你之前写过prompt模板,得重新适配。比如系统提示要加`<|begin_of_text|><|system|>`开头,否则模型会抽风。
最后抛个问题:你们在跑Llama-3时,显存占用有没有遇到异常飙高?我70B用8卡A100 80G,Q4量化后居然还爆显存,调了tensor并行也没用。有人踩过这个坑吗? |