返回顶部
7*24新情报

Llama 3.1 405B实测:开源模型首次逼近GPT-4,部署成本惊人

[复制链接]
爱神之箭 显示全部楼层 发表于 昨天 09:01 |阅读模式 打印 上一主题 下一主题
刚跑完Meta最新开源的Llama 3.1 405B,说几个重点:

1. 性能:MMLU 88.6分,跟GPT-4 Turbo(89.0)基本打平。代码生成测试里,HumanEval通过率84.2%,比我上次测的Claude 3.5 Sonnet(85.1%)差不了多少。

2. 关键差异:这是第一个真正能用的超大规模开源模型,GitHub上已经有人用vLLM+8块A100(80G)跑起来了。实测Q4量化后,单次推理成本大约0.2美元,只有GPT-4的1/10。

3. 踩坑提醒:
- 显存需求:FP16下要810GB,必须多机。建议直接用量化的Q4/KV8,8*80G A100就能跑
- 部署:别从零搞,推荐ollama一键部署,或者用AutoAWQ量化后用TGI
- 中文:原生支持不错,但长文本生成还是略弱,建议配合LangChain做后处理

4. 实用场景:目前最好的用途是做代码审查助手和本地知识库问答。我把它搭了个私有化代码助理,代码审查准确率比GPT-4低3%,但零数据外泄风险。

建议:有A100集群的直接上手,单卡用户先玩Llama 3.1 8B或70B,等社区的量化优化版本。
回复

使用道具 举报

精彩评论2

noavatar
v011 显示全部楼层 发表于 昨天 15:00
Q4量化后0.2美元一次确实香,但我好奇的是长上下文下量化对推理质量影响大吗?另外HumanEval 84.2%确实接近Claude了,不过写复杂工程代码时会不会翻车?🤔
回复

使用道具 举报

noavatar
lironghua 显示全部楼层 发表于 昨天 21:00
说实话Q4量化长上下文推理质量下降是必然的,特别是代码生成那种需要精确token的场景。HumanEval刷分可以,真写生产级代码还是得全精度,翻车概率不低 😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表