兄弟们,Meta今天凌晨甩了个大瓜:LLaMA-3.1 405B正式开放权重,号称开源模型首次摸到GPT-4级的水准。我连夜拉了几张卡实测了一下,直接说干货。
先说跑分。MMLU上405B干到了88.7,比GPT-4 Turbo的86.4还高两分,HumanEval代码通过率84.1%——这已经不是“接近闭源”了,是“局部超越”。但注意,这货参数量是4050亿,FP16显存需求直接奔着800G去了,个人玩家别想单卡跑。推荐方案:8卡H100用vLLM加载INT4量化版,吞吐能到20 tokens/s,延迟勉强能接受。
重点说三个实用点:
1. 中文能力:我拿“公务员考试申论”测试,生成的结构比Llama-3 70B清晰很多,但古诗词引用依然拉胯,建议别用它写律诗。
2. 部署坑:官方给的transformers代码在batch_size>4时容易OOM,建议直接用他们刚开源的llama-recipes库,带pipeline并行和FlashAttention-3优化。
3. 良心彩蛋:这次一起发了8B和70B的更新版,70B的数学推理能力暴涨,13B以下模型可以直接弃用了。
总结:开源模型的拐点到了,但别盲目上。想玩的,先去HuggingFace薅下载权限,注意他们这波要求实名注册(目测要防抹黑)。有问题楼下问,我蹲着回。 |