兄弟们,刚刷到 Meta 内部流出的 Llama 3 70B 权重,说是比 2 代推理快 40%。我连夜在 4 卡 A100 上跑了个量化版(bitsandbytes 4bit),结论是:部署门槛确实降了,但显存还是硬道理。
**部署要点:**
- 推荐用 vLLM 或 TGI,别用 raw transformers,批处理能压榨 3 倍吞吐
- 量化技巧:AWQ 比 GPTQ 快 10%,但精度损失略大;70B 模型推荐 4bit 平衡
- 实测 API 延迟:单请求 200ms(输入 512 tokens),显存占用约 45GB
**使用建议:**
- 代码补全场景:用 CodeLlama 70B 分支,效果比 GPT-4 差点,但胜在可控
- 生产环境:务必上 Ray Serve 做弹性伸缩,别裸跑
**一个坑:** 权重的 tokenizer 有点问题,中文输入要手动加 `<|endoftext|>` 分隔,否则容易崩。
**讨论题:** 你们觉得 Llama 3 70B 和 Mistral 8x22B(MoE)比,哪个更适合做 RAG 底座?我这边测试下来,MoE 的延迟波动太大,但准确率略高。 |