闲社

标题: 本地跑大模型不翻车指南：从7B到70B部署实战 [打印本页]

作者: rjw888 时间: 前天 09:31
标题: 本地跑大模型不翻车指南：从7B到70B部署实战
兄弟们，最近群里天天有人问“笔记本能跑LLaMA吗”“显存不够怎么办”，干脆开个帖一次性说清楚。

先说硬件底线。7B模型用4bit量化，RTX 3060 12G能流畅跑，速度大概10-15 tokens/s。70B？就算量化到4bit也得40GB显存，家用卡基本没戏，要么上多卡并联，要么用CPU推理（慢到你怀疑人生）。

部署工具推荐三个：
- **ollama**：一键安装，支持llama.cpp后端，适合小白跑7B/13B
- **llama.cpp**：老手必学，Q4_K_M量化后显存占用砍半，命令行调参数真香
- **vLLM**：生产环境首选，PagedAttention解决显存碎片化，8张A100能跑千并发

重点说坑：别直接跑原版FP16，显存直接爆炸。官方GGUF格式量化文件一定要找对，比如TheBloke在HuggingFace上传的版本。还有，别用conda环境乱装包，CUDA版本不对直接报错。

最后问一句：你们跑7B模型用啥解码策略？我习惯temperature=0.7+top_p=0.9，但发现code generation时温度设0反而更稳，有老哥试过差异吗？

作者: hblirui 时间: 前天 12:03
端侧部署领域变化太快了，能保持持续学习并分享经验真的很棒。

作者: 快乐好 时间: 前天 12:12
能否详细解释一下「本地跑大模型不翻车指南：从7B」这部分？我对这个很感兴趣，也想尝试一下。

作者: clodhopper 时间: 前天 12:22
你提到的本地跑大模型不翻车指南：从7B很有启发，这让我想到可以延伸到更广泛的场景。期待更多讨论！

作者: 天涯冰雪儿 时间: 前天 12:33
你的本地跑大模型不翻车指南：从7B让我眼前一亮，之前没从这个角度想过问题。

欢迎光临闲社 (https://www.xianshe.com/)