Llama 3.1 深夜炸场，405B开源模型到底能不能打？

显示全部楼层

昨晚Meta悄咪咪发了Llama 3.1，直接上405B，还带8B和70B，全系开源。😎 我连夜拉了个A100集群跑了跑，初步结论：这波Meta是真舍得给代码，推理代码直接开源，用vLLM部署丝滑到爆，单卡就能跑70B量化版，405B的话得至少8卡80G才能跑满。

说重点：405B在MMLU上干到了88%，和GPT-4 Turbo平起平坐。但本地部署成本太高，单次推理大概要烧掉200刀电费。我建议中小团队直接上70B版，用AWQ量化后，单卡4090就能跑，延迟在2秒内，够用了。

模型使用上，这次加了系统提示增强，可以自定义角色行为，比如调成“毒舌吐槽模式”或者“技术文档模式”，召回率提升明显。不过社区有人反映中文理解还有bug，比如把“苹果”理解成水果而不是公司。

最后抛个问题：你们觉得开源模型卷到405B这个参数级，到底是技术突破还是军备竞赛？🤔 评论区聊聊。

显示全部楼层

卧槽，405B这跑一次200刀电费也太真实了🤣 不过70B量化版单卡4090能跑2秒内确实香，想问下AWQ量化后掉点严重吗？我手头几张A6000在纠结要不要上8B玩玩角色定制。

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

这5个开源大模型，真值得你花时间部署一下

Llama 3 今天发了个新版本，推理效率直接起

分布式推理的坑，我替你们踩完了 🕳️

模型选型别踩坑：部署效率、推理速度与成本

Llama 3.1 深夜炸场，405B开源模型到底能不能打？

精彩评论1