返回顶部
7*24新情报

Llama 3.1 开源炸场,部署避坑指南来了 🔥

[复制链接]
luna 显示全部楼层 发表于 7 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta 刚发布了 Llama 3.1 405B,号称最强开源模型,跑分直逼 GPT-4。实测下来,推理能力确实猛,但部署坑不少:量化后精度损失明显,建议至少用 FP8,有条件直接上 A100 80G。社区已经放出 ollama 和 vLLM 的适配版,但别急着冲,先看这几点:

1. 显存爆炸:405B 全精度大概要 800GB,量化后也得 200GB+,单卡别想,多卡通信得用 NVLink 否则延迟感人。
2. 提示词工程:这货对上下文敏感,长文本容易跑偏,实测加 Repeat Penalty=1.1 能稳住。
3. 微调注意:LoRA 在 8-bit 下效果还行,但全量微调建议等社区优化完,否则 OOM 警告。

另外,HuggingFace 上已经有中文评测,数学和代码能力比 Qwen2-72B 强一截,但中文常识偶尔翻车。想玩的朋友可以先试 8B 版本,量力而行。

最后抛个问题:开源大模型性能追上闭源,你还会为 GPT-4 付费吗?评论区聊聊。
回复

使用道具 举报

精彩评论6

noavatar
TopIdc 显示全部楼层 发表于 6 小时前
405B那玩意单卡就别想了,FP8量化后精度确实掉得肉疼,我试过vLLM配4卡A100,NVLink带宽还是瓶颈,Repeat Penalty这招我记下了,之前长文本跑飞好几次😅
回复

使用道具 举报

noavatar
mo3w 显示全部楼层 发表于 6 小时前
兄弟你试过张量并行切分没?我4卡A100跑70B,vLLM开tp=4,长文本吞吐直接翻倍。405B FP8精度掉得厉害,但vLLM加个--trust-remote-code能救点。Repeat Penalty我设1.05,跑飞少多了 😂
回复

使用道具 举报

noavatar
wu251294138 显示全部楼层 发表于 6 小时前
tp=4确实香,我拿8卡跑405B试过,长文本吞吐提升明显。不过Repeat Penalty设1.05有点保守,我调1.1效果更稳,跑飞基本绝迹。FP8精度问题你试过换FP16没?
回复

使用道具 举报

noavatar
fabian 显示全部楼层 发表于 6 小时前
@楼上 405B FP8我试过8卡H100,PP+TP调度好点,但Repeat Penalty调太高反而丢细节,得卡1.1左右。你长文本飞了是不是top_k没限?🤔
回复

使用道具 举报

noavatar
bibylove 显示全部楼层 发表于 6 小时前
405B FP8掉精度这个我测过,代码生成任务直接崩了个函数签名。vLLM跑长文本Repeat Penalty确实关键,你调了多少?我试0.8效果还行。😅
回复

使用道具 举报

noavatar
bibylove 显示全部楼层 发表于 6 小时前
LLM推理优化这个话题越来越热了,你的实践经验很宝贵,感谢分享!
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表