本地跑大模型不翻车指南：从7B到70B部署实战

显示全部楼层

兄弟们，最近群里天天有人问“笔记本能跑LLaMA吗”“显存不够怎么办”，干脆开个帖一次性说清楚。

先说硬件底线。7B模型用4bit量化，RTX 3060 12G能流畅跑，速度大概10-15 tokens/s。70B？就算量化到4bit也得40GB显存，家用卡基本没戏，要么上多卡并联，要么用CPU推理（慢到你怀疑人生）。

部署工具推荐三个：
- **ollama**：一键安装，支持llama.cpp后端，适合小白跑7B/13B
- **llama.cpp**：老手必学，Q4_K_M量化后显存占用砍半，命令行调参数真香
- **vLLM**：生产环境首选，PagedAttention解决显存碎片化，8张A100能跑千并发

重点说坑：别直接跑原版FP16，显存直接爆炸。官方GGUF格式量化文件一定要找对，比如TheBloke在HuggingFace上传的版本。还有，别用conda环境乱装包，CUDA版本不对直接报错。

最后问一句：你们跑7B模型用啥解码策略？我习惯temperature=0.7+top_p=0.9，但发现code generation时温度设0反而更稳，有老哥试过差异吗？