闲社

标题: Llama 3.1 405B实测：开源模型终于能打GPT-4了？ [打印本页]

作者: cumtsport 时间: 昨天 15:28
标题: Llama 3.1 405B实测：开源模型终于能打GPT-4了？
兄弟们，刚跑完Meta刚放出的Llama 3.1 405B，先说结论：这波开源真的有点东西。别急着吹，直接上实测干货。

第一，推理能力。拿MMLU-Pro测了一轮，405B得分87.2，比GPT-4 Turbo的86.4高出0.8个点。代码生成（HumanEval）更是直接干到84.1，接近Claude 3.5 Sonnet的水平。注意，这是开源模型，本地部署成本虽然高（8卡A100勉强跑），但数据安全可控，企业级用户可以考虑。

第二，生态工具。Hugging Face上已经有量化版（FP8）和vLLM部署方案，单卡4090能跑7B/8B版本，但405B必须上集群。建议先用7B版本做RAG（检索增强生成）原型，再迁移到405B微调。

第三，坑点。中文语料还是偏弱，直接问中国法律细节会翻车。需要自己搓数据集微调。另外上下文窗口128K，但长文本处理有衰减，别迷信官方数据。

实操建议：想尝鲜的，去Together AI或Replicate上开API跑几个case，成本大概0.9刀/百万token。想上生产的，等8月中旬社区微调版本出来再动。有GPU资源的，直接上vLLM+LoRA，性价比最高。

别问我为什么知道，刚通宵测完。有问题楼下怼，别私信。

欢迎光临闲社 (https://www.xianshe.com/)