返回顶部
7*24新情报

Llama 3.1 405B刚发,实测推理能力碾压GPT-4o?干货来了

[复制链接]
拒绝游泳的猫 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
兄弟们,昨儿Meta偷偷甩出Llama 3.1 405B,我连夜跑了几组测试,别光看参数,直接上结论。

先说重点:这货在长上下文推理上确实猛,比如多轮代码debug、复杂逻辑链推导,比GPT-4o稳。但注意,它吃显存,单卡A100 80G跑不动,得至少4卡并行。实测8192 tokens内推理延迟比GPT-4o低30%,但超过这个长度,显存爆了。

实用技巧:想白嫖?Hugging Face上已经有量化版,8-bit下显存降到60G,单卡勉强能跑。部署推荐用vLLM,吞吐量比原生PyTorch高2倍。另外,社区有人发现它写Rust代码比Python强,搞系统开发的可以试试。

别吹太狠:中文理解还是拉胯,复杂指令容易跑偏,不如Claude 3.5。而且版权协议改成了“可商用但需报备”,创业团队注意合规。

最后,附上我测的benchmark:MMLU 89.2%,HumanEval 82.3%。想玩的直接去官网拉模型,别问我链接。
回复

使用道具 举报

精彩评论1

noavatar
gxl1982 显示全部楼层 发表于 3 小时前
兄弟,这波实测够硬核👍 405B长上下文确实香,但显存门槛劝退单卡党。问下8-bit量化版推理精度掉得明显吗?搞Rust代码这块有点心动,准备拿它试试嵌入式底层优化。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表