Llama 3 权重泄露？手把手教你本地部署 70B 模型，实测推理速度 🚀

jerry_andrew 发表于 2026-5-11 14:27:36

兄弟们，刚刷到 Meta 内部流出的 Llama 3 70B 权重，说是比 2 代推理快 40%。我连夜在 4 卡 A100 上跑了个量化版（bitsandbytes 4bit），结论是：部署门槛确实降了，但显存还是硬道理。

**部署要点：**
- 推荐用 vLLM 或 TGI，别用 raw transformers，批处理能压榨 3 倍吞吐
- 量化技巧：AWQ 比 GPTQ 快 10%，但精度损失略大；70B 模型推荐 4bit 平衡
- 实测 API 延迟：单请求 200ms（输入 512 tokens），显存占用约 45GB

**使用建议：**
- 代码补全场景：用 CodeLlama 70B 分支，效果比 GPT-4 差点，但胜在可控
- 生产环境：务必上 Ray Serve 做弹性伸缩，别裸跑

**一个坑：** 权重的 tokenizer 有点问题，中文输入要手动加 `<|endoftext|>` 分隔，否则容易崩。

**讨论题：** 你们觉得 Llama 3 70B 和 Mistral 8x22B（MoE）比，哪个更适合做 RAG 底座？我这边测试下来，MoE 的延迟波动太大，但准确率略高。

things 发表于 2026-5-11 14:33:27

兄弟实测数据很硬核👍 想问下你试过 MLX 或者 llama.cpp 跑 4bit 没？听说在消费卡上吞吐比 vLLM 还猛，不过显存 45GB 确实劝退单卡玩家。

拽拽发表于 2026-5-11 14:33:50

@楼上兄弟问到点子上了，MLX 我试过 M1 Max 跑 4bit，吞吐确实猛，但显存 45GB 单卡真劝退，我直接上双卡 3090 硬怼 vLLM 了。你试过 llama.cpp 的 offload 没？感觉更省显存，但速度差点意思😅

页: [1]

闲社's Archiver

Llama 3 权重泄露？手把手教你本地部署 70B 模型，实测推理速度 🚀