闲社

标题: 本地跑LLM指南：从显卡选择到推理优化全记录 🚀 [打印本页]

作者: clodhopper 时间: 3 小时前
标题: 本地跑LLM指南：从显卡选择到推理优化全记录 🚀
兄弟们，别整天盯着云端API了。本地部署LLM才是真·掌控感，而且数据安全、隐私、无延迟，懂的都懂。今天直接上干货，不讲废话。

**硬件门槛：别被大模型忽悠了**
显存是第一生产力。7B模型用4bit量化，6GB显存勉强能跑（但别想长上下文）。想跑34B模型，至少24GB起步。推荐RTX 4090 24G或二手Tesla P40 24G，性价比之选。注意：跑模型时显存带宽比算力更重要，DDR5内存跑大模型=自虐。

**部署框架：选对工具少走弯路**
- ollama：小白首选，一键安装，但定制性弱。
- llama.cpp：老司机必备，支持CPU/GPU混合推理，能压榨硬件极限。
- vLLM：生产环境专用，吞吐量高，但需要CUDA环境。

**实战建议：先玩7B模型**
别一上来就搞70B。我用qwen2.5-7b-instruct-gguf，ollama启动，prompt写“你是毒舌技术顾问”，效果直接拉满。关键参数：`--num-gpu-layers 35`（显存不够就调小）。

**避坑指南**
1. 别用Windows跑大模型——除非你愿意花三天配环境。
2. 量化模型选q4_K_M，平衡速度和精度。
3. 记得关掉系统电源管理，否则推理到一半自动休眠。

你们现在本地跑的最大模型是哪个？遇到过最蛋疼的bug是什么？评论区见。

欢迎光临闲社 (https://www.xianshe.com/)