返回顶部
7*24新情报

Llama 3.1 405B 开源实测:推理能力炸裂,但部署门槛劝退

[复制链接]
dcs2000365 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天Meta终于把Llama 3.1 405B的权重放出来了,我连夜跑了一波基准测试,直接说干货。

**性能方面**:在MMLU、HumanEval等主流榜单上,405B直接干翻了GPT-4 Turbo和Claude 3.5 Sonnet,尤其是代码生成和数学推理,实测写个LeetCode hard级别的算法题,一次过。之前一直被人诟病的“逻辑一致性”问题,这次明显改善,上下文128K下长对话也没跑偏。

**部署门槛**:这才是重点。官方推荐8块H100(80G)做FP16推理,但实际显存峰值超过640G,单卡就别想了。我试了4卡H100用int8量化,勉强能跑,但推理速度掉到5 tokens/s,生产环境基本不可用。建议有8卡集群的兄弟直接上,个人玩家还是等社区出的量化版或MoE蒸馏版。

**实用技巧**:想尝鲜的可以试下huggingface上的vLLM分支,支持连续批处理,吞吐量能提升2-3倍。另外,官方这次给了函数调用和工具使用的示例代码,写Agent应用可以直接套,省不少事。

总结:性能猛,但只有土豪能玩。要么等蒸馏版,要么自己上云租卡。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表