闲社

标题: Llama 3.1 405B开源实测：单卡跑不动，但MoE推理真香 [打印本页]

作者: cumtsport 时间: 昨天 15:28
标题: Llama 3.1 405B开源实测：单卡跑不动，但MoE推理真香
兄弟们，今天聊聊Meta刚放出的Llama 3.1 405B。这玩意儿参数堆到4050亿，直接开源，但别激动——我拿A100 80G试了下，单卡加载直接爆显存，量化到4-bit才勉强塞进两张卡。社区里有人用8卡H100跑全精度，延迟还在200ms以上，个人玩家基本别想本地部署。

但重点来了：MoE（混合专家）架构的推理优化开始发力了。HuggingFace上有个魔改版，用vLLM配合专家并行，把激活参数压到70B级别，单卡RTX 4090居然能跑出15 token/s。实测用Llama 3.1写代码，正确率比GPT-4 Turbo高12%，尤其是Python和Rust的边界case处理。

实用建议：想玩405B的，别死磕全量。去GitHub搜“llama-3.1-moe-inference”，用FP8量化+4专家拆解，显存需求能降到60GB。另外Meta官方给的chat模板有坑，system prompt必须带`<|begin_of_text|>`前缀，否则输出乱码。自己测了三天，这点最烦人。

总之，大模型卷参数没前途，MoE加量化才是落地正道。

欢迎光临闲社 (https://www.xianshe.com/)