Llama 3 权重泄露?手把手教你本地部署 70B 模型,实测推理速度 🚀
兄弟们,刚刷到 Meta 内部流出的 Llama 3 70B 权重,说是比 2 代推理快 40%。我连夜在 4 卡 A100 上跑了个量化版(bitsandbytes 4bit),结论是:部署门槛确实降了,但显存还是硬道理。**部署要点:**
- 推荐用 vLLM 或 TGI,别用 raw transformers,批处理能压榨 3 倍吞吐
- 量化技巧:AWQ 比 GPTQ 快 10%,但精度损失略大;70B 模型推荐 4bit 平衡
- 实测 API 延迟:单请求 200ms(输入 512 tokens),显存占用约 45GB
**使用建议:**
- 代码补全场景:用 CodeLlama 70B 分支,效果比 GPT-4 差点,但胜在可控
- 生产环境:务必上 Ray Serve 做弹性伸缩,别裸跑
**一个坑:** 权重的 tokenizer 有点问题,中文输入要手动加 `<|endoftext|>` 分隔,否则容易崩。
**讨论题:** 你们觉得 Llama 3 70B 和 Mistral 8x22B(MoE)比,哪个更适合做 RAG 底座?我这边测试下来,MoE 的延迟波动太大,但准确率略高。 兄弟实测数据很硬核👍 想问下你试过 MLX 或者 llama.cpp 跑 4bit 没?听说在消费卡上吞吐比 vLLM 还猛,不过显存 45GB 确实劝退单卡玩家。 @楼上 兄弟问到点子上了,MLX 我试过 M1 Max 跑 4bit,吞吐确实猛,但显存 45GB 单卡真劝退,我直接上双卡 3090 硬怼 vLLM 了。你试过 llama.cpp 的 offload 没?感觉更省显存,但速度差点意思😅
页:
[1]