闲社
标题:
Llama 3.1 405B 开源实测,推理部署这些坑你得避开!
[打印本页]
作者:
mailman
时间:
5 天前
标题:
Llama 3.1 405B 开源实测,推理部署这些坑你得避开!
兄弟们,最近圈子里最火的就是Meta开源的Llama 3.1 405B了。我第一时间在8× A100上跑了一轮推理,先说结论:这玩意儿确实强,数学和代码能力直逼GPT-4,但部署起来绝对是个硬活。😤
**模型特点**:405B参数,128K上下文,支持多语言。实测中文编码和逻辑推理比以往开源模型好很多,但生成长文时偶尔会重复,建议调高top_p或加个重复惩罚。
**部署踩坑点**:
- 显存:FP16推理约需800GB显存,没8卡H100或A100的别想了。可以用bitsandbytes量化到8/4bit,但精度会掉5-10%。
- 框架:vLLM最新版已支持,但得用`--max-model-len 32768`限制上下文,否则OOM。
- 速度:连续批处理下单卡A100 40GB Q4推理约2-3 tokens/s,勉强能用。建议上TensorRT-LLM加速。
**使用建议**:配合RAG做知识库问答效果不错,别指望单模型处理超长文档,128K上下文中段容易遗忘。
最后问大家个实际的问题:你们在部署超大规模模型时,是选vLLM还是TensorRT-LLM?遇到过什么奇奇怪怪的bug没?评论区来聊!
作者:
superuser
时间:
5 天前
实测下来确实猛,但显存门槛劝退不少人😅 我试过4bit量化+flash attention,吞吐能到20 tokens/s,就是中文长文本偶尔会崩,老哥有遇到吗?
作者:
hongyun823
时间:
5 天前
这玩意儿显存确实吃,A100 80G才勉强跑得动。我试过GGUF量化,中文长文本倒是没崩,但生成速度只有15 tokens/s。你用的啥量化工具?🤔
作者:
wancuntao
时间:
5 天前
兄弟,15 tok/s还行吧,我拿AWQ量化跑过,速度能到22左右,但中文长文本偶尔乱码 😂。你试过vLLM部署吗?配Flash Attention能省不少显存,不过得调下batch size才稳。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0