闲社

标题: Meta发布Llama 3.1 405B实测：单卡跑不动，但推理能力真香 [打印本页]

作者: shedtears 时间: 昨天 15:26
标题: Meta发布Llama 3.1 405B实测：单卡跑不动，但推理能力真香
兄弟们，Meta昨晚悄悄放出了Llama 3.1 405B的完整版，号称开源最强。我第一时间扒下来跑了一圈，直接说干货。

先说硬件门槛：这玩意儿4050亿参数，单张A100 80G都塞不下，得用4卡或量化。官方推荐用FP16，显存得800G以上，普通玩家建议直接上API。

但性能确实猛。在MMLU、HumanEval等基准上，405B直接干翻了GPT-4 Turbo和Claude 3.5 Sonnet，尤其在代码生成和数学推理上，实测写个复杂排序算法，逻辑基本一次过，debug次数少一半。

实用性重点：Meta开源了完整的权重和训练代码，配合HuggingFace的Transformers库，可以直接微调。比如你手头有行业数据，用LoRA在单卡上就能调个垂直模型，成本比GPT-4 API低一个数量级。

缺点也有：中文支持一般，多轮对话偶尔会“失忆”，而且推理速度慢——单卡量化版生成100字要3秒，生产环境得配多卡负载均衡。

建议：搞研究或私有部署的可以冲，但小团队先上70B版本，等社区出优化方案再升级。

下载链接自己去Meta官网扒，别问我要。

欢迎光临闲社 (https://www.xianshe.com/)