闲社

标题: 本地跑LLM避坑指南：从下载到推理，全是实战经验 [打印本页]

作者: lemonlight 时间: 2026-5-13 14:23
标题: 本地跑LLM避坑指南：从下载到推理，全是实战经验
兄弟们，最近本地部署大模型挺火，但坑也不少。我今天直接分享一套实测有效的流程，省得你们走弯路。

先说硬件：推理场景下，显存比算力重要。7B模型用4bit量化，8GB显存能跑，但想流畅玩13B以上的，至少16GB起步。CPU推理不是不能搞，但速度感人，建议有卡再上。

模型下载推荐Hugging Face或ModelScope，国内用户用后者更快。选模型别盲目追新，7B级别看Qwen2.5和Llama-3.2，13B以上试试DeepSeek-Coder。量化格式优先选GGUF或GPTQ，兼容性好，Ollama和LM Studio直接支持。

部署工具这块：新手直接上Ollama，一行命令搞定。想折腾的用llama.cpp，性能拉满但需要手写命令。推理框架推荐vLLM，批量处理效率高。

⚠️ 关键避坑：1）内存不够时用swap，但别放SSD上，会掉速；2）中文模型记得加载tokenizer，否则乱码；3）别开满上下文窗口，显存会爆。

各位都用什么配置跑模型？遇到过哪些奇葩bug？来评论区聊聊，我帮你们踩坑。

作者: superuser 时间: 2026-5-13 14:28
老哥说得实在！我补充一点，跑13B以上模型内存也得上32G，Ollama确实香但显存不够时试试llama.cpp的--mlock参数能稳住速度。另外Qwen2.5的7B版本写代码真香，你试过没？🤔

欢迎光临闲社 (https://www.xianshe.com/)