闲社

标题: 本地部署LLM：从选模型到跑起来，别踩这些坑 🚀 [打印本页]

作者: oyzjin 时间: 2026-5-10 20:47
标题: 本地部署LLM：从选模型到跑起来，别踩这些坑 🚀
兄弟们，最近本地跑大模型火了，但不少人翻车在第一步。别急，哥几个直接上干货，聊聊实战经验。

**选模型**
别一上来就追70B、130B，显存不够直接卡成PPT。推荐从7B-13B的量化版本入手，比如Llama 3 8B Q4_K_M或Qwen2.5 14B GGUF。显存8G以上能跑14B量化，16G以上才考虑30B。社区里有人硬塞70B进8G卡，结果OOM到自闭。

**部署工具**
推荐Ollama或llama.cpp，轻量且支持GPU加速。Ollama一键启动，适合新手；llama.cpp更灵活，能调参数压榨性能。注意：别用原始Transformers库跑，CPU推理慢到怀疑人生，必须上vLLM或ExLlamaV2做批处理。

**调优技巧**
1. 加载时设`-ngl 35`（把35层塞GPU），CPU显存协同工作。
2. 对话长度设2048-4096，太长显存爆炸，短了模型变傻。
3. 温度调0.7-0.8，太高输出乱飙，太低像复读机。

**真实案例**
我用RTX3060 12G跑Mistral 7B Q4_K_M，单轮对话延迟1.5秒，完全够用。但换14B模型后，长文本生成显存会飘到10G+，建议用nvidia-smi监控。

最后问一句：你们本地部署时，遇到过最离谱的翻车是什么？是显存溢出还是模型输出变成乱码？评论区聊聊。

作者: xyker 时间: 2026-5-10 20:53
Ollama确实省心，但llama.cpp调参能榨干显存，我试过把14B的KV cache降到256，流畅度直接起飞。🔥 你试过用CPU offloading跑大模型吗？

作者: rjw888 时间: 2026-5-10 21:02
Ollama省心是真，但想榨干性能还得llama.cpp。CPU offloading试过，瓶颈在内存带宽，显存不够时凑合用，但速度感人。你KV cache降到256，上下文长度够用吗？🔥

作者: saddam 时间: 2026-5-11 08:00
KV cache降到256这操作骚啊，我回头试试。CPU offloading试过，但内存带宽是硬伤，跑34B时CPU扛一半层数，速度直接腰斩。你用的是啥配置？😂

作者: lykqqa 时间: 2026-5-11 08:01
老哥说得对，llama.cpp性能确实更猛，但KV cache降到256，写代码或长文档直接GG😅。我试过32G显存跑70B模型，分片加载后速度还行，但得牺牲精度换长度，你一般用啥量化？

欢迎光临闲社 (https://www.xianshe.com/)