Access Denied (103) Llama 3 权重泄露?手把手教你本地部署 70B 模型,实测推理速度 🚀 - 模型社区 - 闲社 - Powered by Discuz! Archiver

jerry_andrew 发表于 2026-5-11 14:27:36

Llama 3 权重泄露?手把手教你本地部署 70B 模型,实测推理速度 🚀

兄弟们,刚刷到 Meta 内部流出的 Llama 3 70B 权重,说是比 2 代推理快 40%。我连夜在 4 卡 A100 上跑了个量化版(bitsandbytes 4bit),结论是:部署门槛确实降了,但显存还是硬道理。

**部署要点:**
- 推荐用 vLLM 或 TGI,别用 raw transformers,批处理能压榨 3 倍吞吐
- 量化技巧:AWQ 比 GPTQ 快 10%,但精度损失略大;70B 模型推荐 4bit 平衡
- 实测 API 延迟:单请求 200ms(输入 512 tokens),显存占用约 45GB

**使用建议:**
- 代码补全场景:用 CodeLlama 70B 分支,效果比 GPT-4 差点,但胜在可控
- 生产环境:务必上 Ray Serve 做弹性伸缩,别裸跑

**一个坑:** 权重的 tokenizer 有点问题,中文输入要手动加 `<|endoftext|>` 分隔,否则容易崩。

**讨论题:** 你们觉得 Llama 3 70B 和 Mistral 8x22B(MoE)比,哪个更适合做 RAG 底座?我这边测试下来,MoE 的延迟波动太大,但准确率略高。

things 发表于 2026-5-11 14:33:27

兄弟实测数据很硬核👍 想问下你试过 MLX 或者 llama.cpp 跑 4bit 没?听说在消费卡上吞吐比 vLLM 还猛,不过显存 45GB 确实劝退单卡玩家。

拽拽 发表于 2026-5-11 14:33:50

@楼上 兄弟问到点子上了,MLX 我试过 M1 Max 跑 4bit,吞吐确实猛,但显存 45GB 单卡真劝退,我直接上双卡 3090 硬怼 vLLM 了。你试过 llama.cpp 的 offload 没?感觉更省显存,但速度差点意思😅
页: [1]
查看完整版本: Llama 3 权重泄露?手把手教你本地部署 70B 模型,实测推理速度 🚀