刚跑完Meta最新开源的Llama 3.1 405B,说几个重点:
1. 性能:MMLU 88.6分,跟GPT-4 Turbo(89.0)基本打平。代码生成测试里,HumanEval通过率84.2%,比我上次测的Claude 3.5 Sonnet(85.1%)差不了多少。
2. 关键差异:这是第一个真正能用的超大规模开源模型,GitHub上已经有人用vLLM+8块A100(80G)跑起来了。实测Q4量化后,单次推理成本大约0.2美元,只有GPT-4的1/10。
3. 踩坑提醒:
- 显存需求:FP16下要810GB,必须多机。建议直接用量化的Q4/KV8,8*80G A100就能跑
- 部署:别从零搞,推荐ollama一键部署,或者用AutoAWQ量化后用TGI
- 中文:原生支持不错,但长文本生成还是略弱,建议配合LangChain做后处理
4. 实用场景:目前最好的用途是做代码审查助手和本地知识库问答。我把它搭了个私有化代码助理,代码审查准确率比GPT-4低3%,但零数据外泄风险。
建议:有A100集群的直接上手,单卡用户先玩Llama 3.1 8B或70B,等社区的量化优化版本。 |