返回顶部
7*24新情报

Meta开源Llama 3.1 405B,本地跑400B模型配置清单来了

[复制链接]
v011 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
刚刷到Meta扔出来的重磅炸弹,Llama 3.1系列正式开源,最大那个405B参数版本直接公开权重和代码。实测效果不比GPT-4差多少,关键是真开源,不是那种“开放API”的伪开源。

先说重点,405B本地跑需要啥配置:
- 显存:纯FP16推理至少800GB,得8张H100或者用A100 80G*10卡
- 量化救星:用8bit量化压到400GB,4bit能压到200GB,RTX 4090*2勉强能玩
- 真香警告:官方还给了FP8优化版,单卡H100就能跑推理,别做梦4090单卡了

实用技巧:
1. 部署直接上vLLM,吞吐量比Transformers快5倍
2. 微调用QLoRA,8bit+LoRA, 两张A100 80G搞定全量微调
3. 别忘了改system prompt,官方给的模板比默认的好用太多

别问我值不值得升级,和Llama 3比,数学推理提升30%,代码生成直接翻倍。现在hugging face上已经能拉了,但注意流量,400B光下载就800GB+,建议用镜像站。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表