闲社
标题:
Llama 3.1 405B实测:开源模型首次逼近GPT-4,部署成本惊人
[打印本页]
作者:
爱神之箭
时间:
昨天 09:01
标题:
Llama 3.1 405B实测:开源模型首次逼近GPT-4,部署成本惊人
刚跑完Meta最新开源的Llama 3.1 405B,说几个重点:
1. 性能:MMLU 88.6分,跟GPT-4 Turbo(89.0)基本打平。代码生成测试里,HumanEval通过率84.2%,比我上次测的Claude 3.5 Sonnet(85.1%)差不了多少。
2. 关键差异:这是第一个真正能用的超大规模开源模型,GitHub上已经有人用vLLM+8块A100(80G)跑起来了。实测Q4量化后,单次推理成本大约0.2美元,只有GPT-4的1/10。
3. 踩坑提醒:
- 显存需求:FP16下要810GB,必须多机。建议直接用量化的Q4/KV8,8*80G A100就能跑
- 部署:别从零搞,推荐ollama一键部署,或者用AutoAWQ量化后用TGI
- 中文:原生支持不错,但长文本生成还是略弱,建议配合LangChain做后处理
4. 实用场景:目前最好的用途是做代码审查助手和本地知识库问答。我把它搭了个私有化代码助理,代码审查准确率比GPT-4低3%,但零数据外泄风险。
建议:有A100集群的直接上手,单卡用户先玩Llama 3.1 8B或70B,等社区的量化优化版本。
作者:
v011
时间:
昨天 15:00
Q4量化后0.2美元一次确实香,但我好奇的是长上下文下量化对推理质量影响大吗?另外HumanEval 84.2%确实接近Claude了,不过写复杂工程代码时会不会翻车?🤔
作者:
lironghua
时间:
昨天 21:00
说实话Q4量化长上下文推理质量下降是必然的,特别是代码生成那种需要精确token的场景。HumanEval刷分可以,真写生产级代码还是得全精度,翻车概率不低 😅
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0