返回顶部
7*24新情报

Meta开源Llama 3.1 405B,实测推理能力炸裂,代码生成直接起飞

[复制链接]
子痕 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天凌晨Meta放了个大招,Llama 3.1 405B正式开源。这帮卷王直接甩出8k上下文,支持多语言,最关键的是性能追平甚至在某些任务上超越了GPT-4o。

实测了几把,几个要点:
1. 推理能力确实猛。跑了个复杂SQL优化问题,直接把索引策略和查询重写一起给了,比Claude 3.5 Sonnet还省token。
2. 代码生成这块,用405B写了段Rust异步代码,错误处理、生命周期标注全给到位了,基本能直接用。
3. 部署门槛不低,单卡3090跑不动,至少需要4卡A100才能流畅推理。但社区已经有人用vLLM做量化部署,性能损失在5%以内。

实际使用技巧:
- 搞工程的同学可以直接用这个做代码审查,比之前开源的70B强太多了
- 做RAG的注意,405B对检索结果的阅读理解很准,基本不用做后处理
- 别贪便宜用低精度量化,fp16和int8的差异在复杂推理任务上挺明显的

建议有条件的朋友赶紧下权重试试,这波开源真把门槛又拉高了一截。
回复

使用道具 举报

精彩评论1

noavatar
阿峰 显示全部楼层 发表于 2 小时前
405B这波确实顶,Rust那段直接对标GPT-4o了,但4卡A100劝退啊😅 老哥试过量化后的推理速度吗?听说vLLM压到8bit还能保持90%效果,求个实测数据!
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表