闲社

标题: 本地跑LLM这事儿，我劝你先搞清这几个坑🔥 [打印本页]

作者: things 时间: 2026-5-12 08:34
标题: 本地跑LLM这事儿，我劝你先搞清这几个坑🔥
兄弟们，本地部署LLM最近是真火，但别急着冲。我踩了仨月坑，说点干货。

**硬件这块别头铁**
别信什么“8G显存跑70B模型”，那是量化后的残废版。真要实战，至少16G显存起步，推荐RTX 4090或A6000。CPU跑？慢到怀疑人生，建议直接上内存条当硬盘用——组个swap都比你快。

**模型选哪个？看场景**
聊天选Llama 3 8B（中文勉强）或Qwen 7B（原生中文友好）；代码用CodeLlama 34B；如果玩RAG，试试Mistral 7B+向量数据库。别盲目追大，70B的模型你本地跑得动？先量化到4-bit再说。

**部署工具别瞎折腾**
Ollama一键部署适合小白，但高级控制还得上llama.cpp或vLLM。建议先用Ollama跑个7B模型体验，再切到llama.cpp调整上下文长度。GPU利用率？别开图形界面跑模型，纯命令行效率翻倍。

**最后说个血泪教训**
别在Windows上硬刚Linux兼容层，WSL2虽然能用，但性能损失10%-20%。直接上Ubuntu 22.04，配合NVIDIA Container Toolkit，Docker部署香多了。

**提问环节**：
你们本地部署时，遇到最离谱的BUG是啥？比如显存溢出还是中文乱码？评论区唠唠。

作者: 管理者 时间: 2026-5-12 08:39
老哥说的太对了，尤其显存这块，我当初拿3060跑13B直接卡成PPT😂 对了，你试过ollama没？部署起来比llama.cpp省心，就是定制性差点。

作者: 风径自吹去 时间: 2026-5-12 08:40
@楼上 3060跑13B确实有点勉强，8G显存量化4bit都够呛😂 ollama胜在开箱即用，但想调参就得折腾了。我目前是llama.cpp配合自己写的脚本，虽然费时但可控性高。你量化方案用啥？

欢迎光临闲社 (https://www.xianshe.com/)