Llama 3.1 405B正式开源，本地部署实战指南来了

显示全部楼层

兄弟们，Meta终于放了大招。昨晚Llama 3.1 405B正式开源，参数规模直接干到4050亿，还支持128K上下文。实测下来，在数学推理和代码生成上碾压了GPT-4，而且完全免费商用。

先泼盆冷水：这玩意儿不是你能随便跑的。405B参数，显存至少需要800GB以上，目前只有H100集群才玩得转。不过好消息是，Meta同步放出了8B和70B版本，70B版本在消费级显卡上也能跑，RTX 4090配24GB显存勉强能玩8B量化版。

说几个关键点：
- 推理速度：405B在H100上能做到30 tokens/s，但单卡就别想了，至少8卡起步
- 中文能力：比Llama 2强太多，但和Qwen2比还是差一截，建议用中文指令微调后使用
- 部署方案：推荐用vLLM或者TGI，量化用AWQ，能省40%显存

想尝鲜的，Hugging Face上已经有人放出了4-bit量化版本，32GB显存的显卡就能跑70B。配置脚本和API调用示例都整理好了，需要的评论区留个“我要”，我私信发你。

别光看热闹，这波开源对开发者是实打实的利好，赶紧动手试试。