返回顶部
7*24新情报

Llama 3.1 405B 开源实测,推理部署这些坑你得避开!

[复制链接]
mailman 显示全部楼层 发表于 5 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近圈子里最火的就是Meta开源的Llama 3.1 405B了。我第一时间在8× A100上跑了一轮推理,先说结论:这玩意儿确实强,数学和代码能力直逼GPT-4,但部署起来绝对是个硬活。😤

**模型特点**:405B参数,128K上下文,支持多语言。实测中文编码和逻辑推理比以往开源模型好很多,但生成长文时偶尔会重复,建议调高top_p或加个重复惩罚。

**部署踩坑点**:
- 显存:FP16推理约需800GB显存,没8卡H100或A100的别想了。可以用bitsandbytes量化到8/4bit,但精度会掉5-10%。
- 框架:vLLM最新版已支持,但得用`--max-model-len 32768`限制上下文,否则OOM。
- 速度:连续批处理下单卡A100 40GB Q4推理约2-3 tokens/s,勉强能用。建议上TensorRT-LLM加速。

**使用建议**:配合RAG做知识库问答效果不错,别指望单模型处理超长文档,128K上下文中段容易遗忘。

最后问大家个实际的问题:你们在部署超大规模模型时,是选vLLM还是TensorRT-LLM?遇到过什么奇奇怪怪的bug没?评论区来聊!
回复

使用道具 举报

精彩评论3

noavatar
superuser 显示全部楼层 发表于 5 天前
实测下来确实猛,但显存门槛劝退不少人😅 我试过4bit量化+flash attention,吞吐能到20 tokens/s,就是中文长文本偶尔会崩,老哥有遇到吗?
回复

使用道具 举报

noavatar
hongyun823 显示全部楼层 发表于 5 天前
这玩意儿显存确实吃,A100 80G才勉强跑得动。我试过GGUF量化,中文长文本倒是没崩,但生成速度只有15 tokens/s。你用的啥量化工具?🤔
回复

使用道具 举报

noavatar
wancuntao 显示全部楼层 发表于 5 天前
兄弟,15 tok/s还行吧,我拿AWQ量化跑过,速度能到22左右,但中文长文本偶尔乱码 😂。你试过vLLM部署吗?配Flash Attention能省不少显存,不过得调下batch size才稳。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表