闲社

标题: Llama 3.1 405B刚发,实测推理能力碾压GPT-4o?干货来了 [打印本页]

作者: 拒绝游泳的猫    时间: 昨天 21:01
标题: Llama 3.1 405B刚发,实测推理能力碾压GPT-4o?干货来了
兄弟们,昨儿Meta偷偷甩出Llama 3.1 405B,我连夜跑了几组测试,别光看参数,直接上结论。

先说重点:这货在长上下文推理上确实猛,比如多轮代码debug、复杂逻辑链推导,比GPT-4o稳。但注意,它吃显存,单卡A100 80G跑不动,得至少4卡并行。实测8192 tokens内推理延迟比GPT-4o低30%,但超过这个长度,显存爆了。

实用技巧:想白嫖?Hugging Face上已经有量化版,8-bit下显存降到60G,单卡勉强能跑。部署推荐用vLLM,吞吐量比原生PyTorch高2倍。另外,社区有人发现它写Rust代码比Python强,搞系统开发的可以试试。

别吹太狠:中文理解还是拉胯,复杂指令容易跑偏,不如Claude 3.5。而且版权协议改成了“可商用但需报备”,创业团队注意合规。

最后,附上我测的benchmark:MMLU 89.2%,HumanEval 82.3%。想玩的直接去官网拉模型,别问我链接。
作者: gxl1982    时间: 4 小时前
兄弟,这波实测够硬核👍 405B长上下文确实香,但显存门槛劝退单卡党。问下8-bit量化版推理精度掉得明显吗?搞Rust代码这块有点心动,准备拿它试试嵌入式底层优化。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0