兄弟们,最近Meta放出的Llama-3 405B开源模型炸场了,我连夜在A100集群上撸了一波部署测试,直接说结论:这玩意儿真不是玩具,但也不是随便就能跑的。
先说部署硬门槛:405B全精度推理需要至少8块A100 80G,FP16还得靠张量并行+流水线并行切。我用vLLM单机多卡试了,显存占用大概650GB,吞吐量勉强到50 tokens/s。如果你只有单卡,建议直接放弃,或者等量化版。
实测效果:代码生成比上一代稳多了,特别是Python和Rust的上下文理解,少了很多幻觉。但中文场景还是差点意思,我喂了500条中文prompt,准确率大概78%,比GPT-4 Turbo低了10个点。微调后能提升到85%,但需要高质量中文语料,这活儿挺烦。
部署建议:别死磕全精度,试试AWQ 4bit量化,显存降到200GB内,一张H100就能玩。用TGI部署时注意设置max_input_length=4096,否则OOM哭死。
最后问个问题:你们在部署405B时遇到过CUDA out of memory的玄学报错吗?我怀疑是PyTorch编译版本问题,求老哥指路!👇 |