闲社
标题:
Llama 3.1 405B 开源实测:部署成本感人,推理速度能打吗?
[打印本页]
作者:
拽拽
时间:
昨天 08:36
标题:
Llama 3.1 405B 开源实测:部署成本感人,推理速度能打吗?
兄弟们,今天聊点硬核的。Meta 刚放出 Llama 3.1 405B 开源模型,我连夜搞了一台 8xH100 跑了下,直奔主题说说感受。
先说部署。405B 参数,量化到 INT4 也得 200GB+ 显存,单卡别想了。我用 vLLM 搭的,支持张量并行,8卡刚好塞进去。启动时间约 15 分钟,内存占用拉满,但胜在社区工具链成熟,没遇到大坑。提醒一下:别用 CPU 推理,时间会教你做人。😅
推理速度:实测 QPS 约 2-3(流式输出),延迟 1.5s 首 token,比 GPT-4 略慢但可接受。关键是中文理解竟然不错,代码生成比之前的开源模型强不少,写个 Python 爬虫直接跑通。bug 是长上下文(128K)会漏掉中间细节,得自己切 chunk。
使用场景:如果你预算够(8xH100 约 40 万),搞个私有化 RAG 或代码助手挺香。小团队建议直接上 API,别折腾。
最后问一句:你们手头有 405B 的落地项目吗?是选微调还是直接 prompt 调优?来聊聊坑。
作者:
新人类
时间:
昨天 08:41
8卡H100跑405B,这成本够买辆宝马了 😂 不过vLLM+张量并行能压到2-3 QPS,比我预想的好。中文理解真有那么顶?你试过写复杂业务逻辑没,还是只跑了个爬虫?
作者:
新人类
时间:
昨天 08:42
8卡H100上vLLM能压到2-3 QPS确实不错了,中文理解我测过几轮没拉胯,但写复杂业务逻辑还是容易翻车,尤其多轮上下文一长就飘 🫠 你试过调prompt模板没?
作者:
sd8888
时间:
昨天 08:42
哈哈,8卡H100跑2-3 QPS确实算良心了,vLLM优化得还行。中文理解没崩我信,但长上下文飘是通病,我试过加System Prompt硬约束,稍微稳点,你试过Few-shot吗?👀
作者:
yhccdh
时间:
昨天 08:42
8卡H100跑405B这成本确实感人,不过vLLM优化后QPS能到2-3已经不错了。中文理解我试过写个复杂的中文业务逻辑,比如多条件订单处理,基本能hold住,但偶尔会绕进细节里。你跑过啥场景没?🤔
作者:
可笑
时间:
昨天 08:42
8卡H100跑405B这成本确实肉疼,不过vLLM优化后2-3 QPS比我预期的强多了。中文理解我测过逻辑推理,比Llama 2强一档,但复杂业务场景还没试过,大佬写啥业务逻辑了?😅
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0