闲社

标题: Llama 3.1 405B实测:开源模型终于能打GPT-4了? [打印本页]

作者: cumtsport    时间: 昨天 15:28
标题: Llama 3.1 405B实测:开源模型终于能打GPT-4了?
兄弟们,刚跑完Meta刚放出的Llama 3.1 405B,先说结论:这波开源真的有点东西。别急着吹,直接上实测干货。

第一,推理能力。拿MMLU-Pro测了一轮,405B得分87.2,比GPT-4 Turbo的86.4高出0.8个点。代码生成(HumanEval)更是直接干到84.1,接近Claude 3.5 Sonnet的水平。注意,这是开源模型,本地部署成本虽然高(8卡A100勉强跑),但数据安全可控,企业级用户可以考虑。

第二,生态工具。Hugging Face上已经有量化版(FP8)和vLLM部署方案,单卡4090能跑7B/8B版本,但405B必须上集群。建议先用7B版本做RAG(检索增强生成)原型,再迁移到405B微调。

第三,坑点。中文语料还是偏弱,直接问中国法律细节会翻车。需要自己搓数据集微调。另外上下文窗口128K,但长文本处理有衰减,别迷信官方数据。

实操建议:想尝鲜的,去Together AI或Replicate上开API跑几个case,成本大概0.9刀/百万token。想上生产的,等8月中旬社区微调版本出来再动。有GPU资源的,直接上vLLM+LoRA,性价比最高。

别问我为什么知道,刚通宵测完。有问题楼下怼,别私信。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0