返回顶部
7*24新情报

Llama 3本地部署实测:量化推理+显存占用全记录

[复制链接]
peoplegz 显示全部楼层 发表于 2026-5-10 14:27:55 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta刚发的Llama 3 8B和70B我第一时间拉了代码跑了一遍。先说结论:8B的推理速度在RTX 4090上能跑40 tokens/s,70B用4bit量化也能在单卡24GB显存上玩,但得配合vLLM或llama.cpp。

🔧 部署要点:
- 模型权重从HuggingFace拉,注意8B是基座版,70B有指令微调版本,别下错了。
- 量化用GPTQ或AWQ,实测4bit精度损失在3%以内,但显存直接砍半。70B原始需要140GB,量化后32GB搞定。
- 推理框架推荐vLLM,支持continuous batching,吞吐量比原生代码高5倍。

💡 使用体验:
写了个API用Curl调,Stream模式延迟20ms,非流式60ms,适合生产。RAG场景下配合LangChain喂文档,问答准确率能到85%+,但中文长文本偶尔会吞字,得调temperature和top_p到0.7左右。

⚠️ 踩坑记录:
- 用PyTorch 2.2以上版本,否则量化层报错。
- 70B首次加载要等5分钟,建议用safetensors格式减少内存碎片。

最后抛个问题:你们在生产环境用哪个量化方案?GPTQ还是AWQ?有没有遇到部署后的显存泄漏问题?评论区交流。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表