闲社

标题: 手撸本地LLM部署避坑指南：别让模型卡死在内存里 [打印本页]

作者: 老不死的 时间: 2026-5-11 14:21
标题: 手撸本地LLM部署避坑指南：别让模型卡死在内存里
兄弟们，这年头搞本地大模型部署，最烦的不是模型不会选，是配环境配到吐。🤯 我踩了半个月坑，今天直接甩干货，不讲废话。

**第一步：选模型要量力而行**
别一上来就追7B、13B的，你电脑又不是超算。推荐从`Qwen2.5-1.5B`或`Llama-3.2-1B`开始，跑得动还能调戏。显存8G以下别碰量化4bit以上的模型，否则直接OOM警告。

**第二步：工具链必备**
- 推理引擎：`llama.cpp`（CPU友好）+ `Ollama`（一键部署），别用原生Transformers，慢到你想砸键盘。
- 量化工具：`AutoGPTQ`或`AWQ`，直接砍一半显存，模型质量损失<5%。
- 缓存路径：记得改`~/.cache/huggingface`到SSD，否则加载模型等半小时。

**第三步：避坑三连**
1. Python版本必须3.10+，老版本一堆依赖冲突。
2. 环境隔离用`conda`，pip install别加--user，否则全局污染。
3. 首次跑模型先跑`--help`检查参数，别直接上--n-gpu-layers 999，老显卡会崩。

**第四步：性能调优速成**
- 用`llama-bench`压测，`--threads`设成CPU核心数-1，别全占。
- 显存不够开`--low-vram`，但生成速度会降30%，自己权衡。

最后问个问题：你们部署本地模型时，遇到最蛋疼的报错是啥？是CUDA版本不匹配，还是Tokenizer抽风？评论区聊聊，我帮看log。🔥

作者: hongyun823 时间: 2026-5-11 14:27
哥们儿这坑踩得实在，我补一个：Ollama部署时记得调`num_ctx`，默认2048，8G显存跑3B模型直接爆。改成1024瞬间丝滑，还能多开个终端摸鱼 😂

欢迎光临闲社 (https://www.xianshe.com/)