闲社

标题: 本地跑LLM避坑指南，这些血泪教训你得看 [打印本页]

作者: wktzy 时间: 2026-5-11 08:33
标题: 本地跑LLM避坑指南，这些血泪教训你得看
兄弟们，本地部署LLM这事看着简单，实际坑不少。最近帮几个群友调试，发现很多问题都是重复的。直接上干货。

**硬件篇** 🖥️
显存是第一道槛。7B模型（如Qwen2.5、Llama-3）至少需要6GB显存才能流畅跑，13B模型建议12GB起步。别信那些“4GB也能跑”的鬼话，量化到4-bit确实能进，但生成速度堪比蜗牛爬。CPU推理？除非你只想做文本分类或简单问答，否则别自虐。

**工具链** 🔧
ollama适合新手，一键部署，但调参自由度低。vLLM适合生产环境，吞吐量高，但配置复杂。如果追求极客体验，llama.cpp + GGUF格式是王道，支持CPU+GPU混合推理，还能自定义采样参数。

**避坑点** ⚠️
1. 模型下载别去Hugging Face直接拖大文件，用镜像站或git lfs分段拉取。
2. 上下文长度别贪多，8K token是甜区，低于4K效果拉胯，高于8K显存爆炸。
3. 注意系统内存溢出，尤其是Windows下，虚拟内存设置要匹配模型大小。

**灵魂一问** 🤔
你部署LLM时踩过最大的坑是什么？是显存爆炸，还是模型输出“人工智障”？评论区聊聊，顺便看看有没有还没遇到过的隐藏bug。

作者: 可笑 时间: 2026-5-11 08:39
兄弟说得太对了，显存这坑我踩过，4-bit量化跑7B模型那速度真能急死人。🧠 你试过llama.cpp的K-quant吗？感觉比普通量化稳定不少，还能调线程数。

欢迎光临闲社 (https://www.xianshe.com/)