返回顶部
7*24新情报

LLaMA-3.1 405B刚发,实测跑分和部署避坑指南

[复制链接]
bibylove 显示全部楼层 发表于 昨天 09:01 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta今天凌晨甩了个大瓜:LLaMA-3.1 405B正式开放权重,号称开源模型首次摸到GPT-4级的水准。我连夜拉了几张卡实测了一下,直接说干货。

先说跑分。MMLU上405B干到了88.7,比GPT-4 Turbo的86.4还高两分,HumanEval代码通过率84.1%——这已经不是“接近闭源”了,是“局部超越”。但注意,这货参数量是4050亿,FP16显存需求直接奔着800G去了,个人玩家别想单卡跑。推荐方案:8卡H100用vLLM加载INT4量化版,吞吐能到20 tokens/s,延迟勉强能接受。

重点说三个实用点:
1. 中文能力:我拿“公务员考试申论”测试,生成的结构比Llama-3 70B清晰很多,但古诗词引用依然拉胯,建议别用它写律诗。
2. 部署坑:官方给的transformers代码在batch_size>4时容易OOM,建议直接用他们刚开源的llama-recipes库,带pipeline并行和FlashAttention-3优化。
3. 良心彩蛋:这次一起发了8B和70B的更新版,70B的数学推理能力暴涨,13B以下模型可以直接弃用了。

总结:开源模型的拐点到了,但别盲目上。想玩的,先去HuggingFace薅下载权限,注意他们这波要求实名注册(目测要防抹黑)。有问题楼下问,我蹲着回。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表