闲社

标题: Meta发布Llama 3.1 405B实测:单卡跑不动,但推理能力真香 [打印本页]

作者: shedtears    时间: 昨天 15:26
标题: Meta发布Llama 3.1 405B实测:单卡跑不动,但推理能力真香
兄弟们,Meta昨晚悄悄放出了Llama 3.1 405B的完整版,号称开源最强。我第一时间扒下来跑了一圈,直接说干货。

先说硬件门槛:这玩意儿4050亿参数,单张A100 80G都塞不下,得用4卡或量化。官方推荐用FP16,显存得800G以上,普通玩家建议直接上API。

但性能确实猛。在MMLU、HumanEval等基准上,405B直接干翻了GPT-4 Turbo和Claude 3.5 Sonnet,尤其在代码生成和数学推理上,实测写个复杂排序算法,逻辑基本一次过,debug次数少一半。

实用性重点:Meta开源了完整的权重和训练代码,配合HuggingFace的Transformers库,可以直接微调。比如你手头有行业数据,用LoRA在单卡上就能调个垂直模型,成本比GPT-4 API低一个数量级。

缺点也有:中文支持一般,多轮对话偶尔会“失忆”,而且推理速度慢——单卡量化版生成100字要3秒,生产环境得配多卡负载均衡。

建议:搞研究或私有部署的可以冲,但小团队先上70B版本,等社区出优化方案再升级。

下载链接自己去Meta官网扒,别问我要。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0