Llama 3.1 405B实测：开源模型首次逼近GPT-4，部署成本惊人

显示全部楼层

刚跑完Meta最新开源的Llama 3.1 405B，说几个重点：

1. 性能：MMLU 88.6分，跟GPT-4 Turbo（89.0）基本打平。代码生成测试里，HumanEval通过率84.2%，比我上次测的Claude 3.5 Sonnet（85.1%）差不了多少。

2. 关键差异：这是第一个真正能用的超大规模开源模型，GitHub上已经有人用vLLM+8块A100（80G）跑起来了。实测Q4量化后，单次推理成本大约0.2美元，只有GPT-4的1/10。

3. 踩坑提醒：
- 显存需求：FP16下要810GB，必须多机。建议直接用量化的Q4/KV8，8*80G A100就能跑
- 部署：别从零搞，推荐ollama一键部署，或者用AutoAWQ量化后用TGI
- 中文：原生支持不错，但长文本生成还是略弱，建议配合LangChain做后处理

4. 实用场景：目前最好的用途是做代码审查助手和本地知识库问答。我把它搭了个私有化代码助理，代码审查准确率比GPT-4低3%，但零数据外泄风险。

建议：有A100集群的直接上手，单卡用户先玩Llama 3.1 8B或70B，等社区的量化优化版本。