闲社

标题: 本地部署大模型实测：Qwen2-7B量化后4GB显存跑得飞起，踩坑记录 [打印本页]

作者: ∮宁馨儿∮ 时间: 2 小时前
标题: 本地部署大模型实测：Qwen2-7B量化后4GB显存跑得飞起，踩坑记录
兄弟们，最近试了下把Qwen2-7B（通义千问最新开源版）量化到INT4部署在本地，分享一下真实体验，省得大家走弯路。

先说配置：我这边是RTX 3060 12GB显存，用llama.cpp的GGUF格式量化。原模型参数7.2B，INT8版本大概8GB显存，INT4版直接干到4GB出头，跑起来毫无压力。推理速度：Q4_K_M量化下，生成128 tokens大约6-7秒，日常对话完全可用。

重点分享几个坑：
1. 别用原版Hugging Face PyTorch模型直接跑，显存会爆。强烈建议转成GGUF格式，用Ollama或llama.cpp做推理引擎。
2. 中文分词器要调优。Qwen2默认tokenizer对英文更友好，中文长文本时建议加`--temp 0.7`和`--top-k 40`，输出质量提升明显。
3. 显存不够时，试试“offload到CPU”。llama.cpp支持`--n-gpu-layers 32`参数，把部分层丢给CPU跑，虽然速度减半，但8GB显存能跑13B模型。

进阶玩法：配合LangChain搭RAG（检索增强生成），把本地PDF文档向量化后直接喂给模型，准确率比纯LLM高20%+。推荐用ChromaDB做向量库，部署成本为零。

最后说句大实话：本地部署虽然省去了调用API的成本和隐私顾虑，但参数调优、模型选择真得花时间。新手建议从Qwen2-7B或Llama-3-8B起步，别一上来就搞70B，那是给A100准备的。

欢迎光临闲社 (https://www.xianshe.com/)