Llama 3 权重泄露？手把手教你本地部署 70B 模型，实测推理速度 🚀

显示全部楼层

兄弟们，刚刷到 Meta 内部流出的 Llama 3 70B 权重，说是比 2 代推理快 40%。我连夜在 4 卡 A100 上跑了个量化版（bitsandbytes 4bit），结论是：部署门槛确实降了，但显存还是硬道理。

**部署要点：**
- 推荐用 vLLM 或 TGI，别用 raw transformers，批处理能压榨 3 倍吞吐
- 量化技巧：AWQ 比 GPTQ 快 10%，但精度损失略大；70B 模型推荐 4bit 平衡
- 实测 API 延迟：单请求 200ms（输入 512 tokens），显存占用约 45GB

**使用建议：**
- 代码补全场景：用 CodeLlama 70B 分支，效果比 GPT-4 差点，但胜在可控
- 生产环境：务必上 Ray Serve 做弹性伸缩，别裸跑

**一个坑：** 权重的 tokenizer 有点问题，中文输入要手动加 `<|endoftext|>` 分隔，否则容易崩。

**讨论题：** 你们觉得 Llama 3 70B 和 Mistral 8x22B（MoE）比，哪个更适合做 RAG 底座？我这边测试下来，MoE 的延迟波动太大，但准确率略高。