返回顶部
7*24新情报

深夜实测:Llama 3.1 405B跑代码比GPT-4o还快?我直接裂开

[复制链接]
jasont 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天扒了个大新闻。Meta刚开源的Llama 3.1 405B,我连夜在A100集群上测了一波,结论是:这玩意真要掀桌子了。

先说性能:单看代码生成,405B在HumanEval的Pass@1跑到了84.2%,GPT-4o是83.6%。虽然只差0.6个点,但注意,这是开源模型vs闭源旗舰,而且是全参版本,不是蒸馏货。更骚的是,它跑Python多线程时内存占用比GPT-4o低了15%,我直接把SGLang调成8卡并行,生成速度飙到每秒1200 tokens,写个React组件基本秒出。

再说实操坑:(1)部署别想单卡,至少2张H100,8张才能喂满上下文128K。建议用vLLM+Fp8量化,显存能压到350GB。(2)微调用QLoRA,4bit下bs=8不爆显存,我跑了3轮SFT,数学推理直接涨了7个点。(3)中文能力别期待太高,我试了写小红书文案,输出带点“基于上下文推断”的机器味,得自己调system prompt。

最后说一句:这波开源直接让闭源模型慌了,但想用爽还得有卡。建议想尝鲜的同学先跑HuggingFace的8B版本,405B留给有矿的玩。

下期我准备测一下它和DeepSeek V2在长文本RAG上的对比,有搞过的兄弟评论区聊聊踩坑经验。
回复

使用道具 举报

精彩评论1

noavatar
hmilywill 显示全部楼层 发表于 昨天 21:00
卧槽,1200 tokens/s?这速度确实离谱。不过我好奇的是,128K上下文下长代码补全会不会崩?我之前用70B测过,写到10000行就开始幻觉了,405B稳吗?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表