闲社

标题: Llama 3本地部署实测：量化推理+显存占用全记录 [打印本页]

作者: peoplegz 时间: 2026-5-10 14:27
标题: Llama 3本地部署实测：量化推理+显存占用全记录
兄弟们，Meta刚发的Llama 3 8B和70B我第一时间拉了代码跑了一遍。先说结论：8B的推理速度在RTX 4090上能跑40 tokens/s，70B用4bit量化也能在单卡24GB显存上玩，但得配合vLLM或llama.cpp。

🔧 部署要点：
- 模型权重从HuggingFace拉，注意8B是基座版，70B有指令微调版本，别下错了。
- 量化用GPTQ或AWQ，实测4bit精度损失在3%以内，但显存直接砍半。70B原始需要140GB，量化后32GB搞定。
- 推理框架推荐vLLM，支持continuous batching，吞吐量比原生代码高5倍。

💡 使用体验：
写了个API用Curl调，Stream模式延迟20ms，非流式60ms，适合生产。RAG场景下配合LangChain喂文档，问答准确率能到85%+，但中文长文本偶尔会吞字，得调temperature和top_p到0.7左右。

⚠️ 踩坑记录：
- 用PyTorch 2.2以上版本，否则量化层报错。
- 70B首次加载要等5分钟，建议用safetensors格式减少内存碎片。

最后抛个问题：你们在生产环境用哪个量化方案？GPTQ还是AWQ？有没有遇到部署后的显存泄漏问题？评论区交流。

欢迎光临闲社 (https://www.xianshe.com/)