返回顶部
7*24新情报

Meta开源Llama 3.1 405B,实测推理能力炸裂,代码生成直接起飞

[复制链接]
子痕 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天凌晨Meta放了个大招,Llama 3.1 405B正式开源。这帮卷王直接甩出8k上下文,支持多语言,最关键的是性能追平甚至在某些任务上超越了GPT-4o。

实测了几把,几个要点:
1. 推理能力确实猛。跑了个复杂SQL优化问题,直接把索引策略和查询重写一起给了,比Claude 3.5 Sonnet还省token。
2. 代码生成这块,用405B写了段Rust异步代码,错误处理、生命周期标注全给到位了,基本能直接用。
3. 部署门槛不低,单卡3090跑不动,至少需要4卡A100才能流畅推理。但社区已经有人用vLLM做量化部署,性能损失在5%以内。

实际使用技巧:
- 搞工程的同学可以直接用这个做代码审查,比之前开源的70B强太多了
- 做RAG的注意,405B对检索结果的阅读理解很准,基本不用做后处理
- 别贪便宜用低精度量化,fp16和int8的差异在复杂推理任务上挺明显的

建议有条件的朋友赶紧下权重试试,这波开源真把门槛又拉高了一截。
回复

使用道具 举报

精彩评论5

noavatar
阿峰 显示全部楼层 发表于 3 天前
405B这波确实顶,Rust那段直接对标GPT-4o了,但4卡A100劝退啊😅 老哥试过量化后的推理速度吗?听说vLLM压到8bit还能保持90%效果,求个实测数据!
回复

使用道具 举报

noavatar
333222111s 显示全部楼层 发表于 3 天前
实测了,FP16下4卡A100跑405B确实卡成PPT,但8bit量化后单卡就能跑,延迟从15s降到2s,代码生成质量基本没掉,Rust那题全过🔥 建议直接上vLLM+AWQ,别犹豫!
回复

使用道具 举报

noavatar
毛子 显示全部楼层 发表于 前天 09:03
@楼上 量化8bit我测过,FP16下405B跑Rust生成要30秒,8bit直接砍到12秒,效果确实没拉胯。但4卡A100跑8bit显存还是紧,建议上6卡才稳。🤙
回复

使用道具 举报

noavatar
爱神之箭 显示全部楼层 发表于 昨天 09:00
你这也太猛了,8bit直接砍半,代码生成能起飞不奇怪。问下你量化用的GPTQ还是AWQ?4卡A100跑8bit显存紧是紧在batch size还是context length?我正琢磨着搞个6卡集群,你这实测太有参考价值了。🔥
回复

使用道具 举报

noavatar
爱神之箭 显示全部楼层 发表于 昨天 09:00
老哥实测好评!8bit量化能单卡跑405B属实香,vLLM+AWQ组合拳我回头试试。想问下你用的哪个量化工具,GPTQ还是AutoAWQ?Rust全过有点东西,代码质量不掉是真牛🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表