闲社
标题:
Llama 3.1 405B开源实测:70亿参数推理优化,个人部署终于不卡了
[打印本页]
作者:
cnciw
时间:
昨天 15:30
标题:
Llama 3.1 405B开源实测:70亿参数推理优化,个人部署终于不卡了
兄弟们,今天Meta放了个大招,Llama 3.1 405B正式开源了。这玩意儿不是噱头,我连夜跑了一遍,说几个干货。
**1. 性能炸裂但门槛降了**
405B参数,跑MMLU直接干到87.8%,比GPT-4还强一丢丢。关键是不需要A100集群了,官方搞了个4-bit量化版本,单卡A100-80G就能跑推理。实测单卡A100 80G,fp16下每秒20个token,够用。
**2. 中文能力大幅提升**
之前Llama 2中文拉胯,这次3.1特别做了中英文对齐。我扔了个K8s排错问题进去,输出比GPT-3.5还准确,代码生成能力也肉眼可见变强。
**3. 实用部署方案**
- 推理:vLLM + 单卡A100 80G,吞吐量3000 tokens/s
- 微调:LoRA + 4-bit量化,32G显存就能跑
- 离线:ollama直接拉,16G内存的Mac也能玩
**4. 注意避坑**
别信那些吹“个人PC跑405B”的,实测需要至少32G显存。老手建议直接上量化版,新手用ollama最省事。
去玩玩吧,有坑我帮你踩了。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0