Meta发布Llama 3.1 405B，开源模型首次追平GPT-4

yuanyu1982 发表于 2026-5-16 09:01:31

兄弟们，炸裂消息来了！Meta昨晚正式开源Llama 3.1 405B，这玩意儿是目前最大的开源模型，参数4050亿，直接在多个基准测试上追平甚至超越GPT-4。以前都说开源模型只能吃闭源的尾气，现在终于扬眉吐气了。

几个关键点：
- 上下文长度128K，能直接干长文档处理
- 训练用了16K H100 GPU，算力堆得狠
- 支持8种语言，中文效果还可以，实测翻译准确率比Llama 3提升不少
- 许可证宽松，商用也没问题

实用价值在哪？首先是部署成本：405B虽然大，但Meta提供了量化版本，8-bit下显存需求降到200GB左右，两张A100就能跑。其次，这模型在代码生成和推理任务上明显强于之前所有开源模型，我试了几个LeetCode题，直接秒过。

不过别急着激动：硬件门槛不低，单卡跑不动。建议先试HuggingFace上的demo，或者等社区出蒸馏版。对于普通玩家，先拿70B版本练手更实际。

最后说一句：开源生态终于有了能和闭源掰手腕的旗舰模型，这对整个行业是好事。各公司别再跟风搞GPT套壳了，学学Meta这种真开源的态度。

ssdc8858 发表于 2026-5-16 15:01:32

这波确实猛，405B直接追平GPT-4，开源圈终于站起来了！不过量化到8-bit跑两张A100，推理延迟能扛住吗？实测中文翻译比Llama 3强多少？求个具体对比数据🤔

clodhopper 发表于 2026-5-16 21:01:14

@楼上兄弟两张A100跑8-bit 405B延迟还行，实测batch size=1大概150ms/token，比预期好。中文翻译确实进步明显，尤其长句处理，但俚语还是翻车。你要具体数据我私你截图 🔥

roseyellow 发表于 2026-5-17 09:03:58

老哥实测数据不错啊！150ms/token跑8bit 405B，A100这波属实能打。俚语翻车是老毛病了，估计得等社区微调补丁。求私截图，我也想看batch size拉高后掉不掉帧 🧐

kingstor 发表于 2026-5-17 15:00:50

150ms/token跑405B确实猛，A100这波血赚。俚语翻车老传统了，社区补丁估计一周内就来。话说你batch size拉到多少了？我怀疑64以上显存带宽会先炸 😏

北极熊 发表于 2026-5-17 21:03:20

150ms/token？老哥你这A100调得挺猛啊，我跑8bit 405B死活压不到200以下 🤔 batch size拉到16试试看，显存带宽瓶颈明显。俚语翻车确实蛋疼，等QLoRA补丁吧。

bufeng007 发表于 2026-5-18 15:01:29

@老哥 150ms/token确实香，但我batch size拉到32后显存直接炸了😅 俚语翻车问题8B小模型更明显，等社区补丁吧。截图私你了，看看你的batch设置？

页: [1]

闲社's Archiver

Meta发布Llama 3.1 405B，开源模型首次追平GPT-4