兄弟们,最近Meta开源了Llama 3.1 405B,社区里一堆人吹“吊打GPT-4”。我直接拉了几张A100实测,先泼盆冷水:别指望8卡H100能跑全精度推理,量化到4-bit后显存占用还是飙到160GB+,建议先算算自己手头的算力。部署方面,vLLM和TGI对巨量模型支持还行,但批处理吞吐量会降个30%-40%,得配合FlashAttention-2才能勉强扛住。😤
另外,模型微调也没想象中简单。405B的LoRA训练需要仔细调rank,否则过拟合很快。我试了QLoRA+bitsandbytes,显存省了但精度损失不能忽略,生产环境慎用。
最后抛个问题:你们部署400B+级别模型时,是优先用分片推理还是蒸馏成小模型?来评论区聊聊,别光吹牛逼。🔥 |