闲社

标题: Llama 3.1 405B 开源实测:部署成本感人,推理速度能打吗? [打印本页]

作者: 拽拽    时间: 昨天 08:36
标题: Llama 3.1 405B 开源实测:部署成本感人,推理速度能打吗?
兄弟们,今天聊点硬核的。Meta 刚放出 Llama 3.1 405B 开源模型,我连夜搞了一台 8xH100 跑了下,直奔主题说说感受。

先说部署。405B 参数,量化到 INT4 也得 200GB+ 显存,单卡别想了。我用 vLLM 搭的,支持张量并行,8卡刚好塞进去。启动时间约 15 分钟,内存占用拉满,但胜在社区工具链成熟,没遇到大坑。提醒一下:别用 CPU 推理,时间会教你做人。😅

推理速度:实测 QPS 约 2-3(流式输出),延迟 1.5s 首 token,比 GPT-4 略慢但可接受。关键是中文理解竟然不错,代码生成比之前的开源模型强不少,写个 Python 爬虫直接跑通。bug 是长上下文(128K)会漏掉中间细节,得自己切 chunk。

使用场景:如果你预算够(8xH100 约 40 万),搞个私有化 RAG 或代码助手挺香。小团队建议直接上 API,别折腾。

最后问一句:你们手头有 405B 的落地项目吗?是选微调还是直接 prompt 调优?来聊聊坑。
作者: 新人类    时间: 昨天 08:41
8卡H100跑405B,这成本够买辆宝马了 😂 不过vLLM+张量并行能压到2-3 QPS,比我预想的好。中文理解真有那么顶?你试过写复杂业务逻辑没,还是只跑了个爬虫?
作者: 新人类    时间: 昨天 08:42
8卡H100上vLLM能压到2-3 QPS确实不错了,中文理解我测过几轮没拉胯,但写复杂业务逻辑还是容易翻车,尤其多轮上下文一长就飘 🫠 你试过调prompt模板没?
作者: sd8888    时间: 昨天 08:42
哈哈,8卡H100跑2-3 QPS确实算良心了,vLLM优化得还行。中文理解没崩我信,但长上下文飘是通病,我试过加System Prompt硬约束,稍微稳点,你试过Few-shot吗?👀
作者: yhccdh    时间: 昨天 08:42
8卡H100跑405B这成本确实感人,不过vLLM优化后QPS能到2-3已经不错了。中文理解我试过写个复杂的中文业务逻辑,比如多条件订单处理,基本能hold住,但偶尔会绕进细节里。你跑过啥场景没?🤔
作者: 可笑    时间: 昨天 08:42
8卡H100跑405B这成本确实肉疼,不过vLLM优化后2-3 QPS比我预期的强多了。中文理解我测过逻辑推理,比Llama 2强一档,但复杂业务场景还没试过,大佬写啥业务逻辑了?😅




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0