闲社

标题: 本地部署LLM避坑指南：从模型选择到运行优化 [打印本页]

作者: 皇甫巍巍 时间: 2026-5-12 20:08
标题: 本地部署LLM避坑指南：从模型选择到运行优化
兄弟们，最近本地跑大模型的风很大，我来分享一下实战踩坑经验。先说硬件：显存＞内存，8GB显存勉强跑7B模型，16GB以上才能流畅跑13B。推荐用Ollama或llama.cpp，前者一键部署，后者性能更优。

关于模型选择：别一上来就追70B，先拿Qwen2-7B或Llama3-8B练手。量化版本优先，比如Q4_K_M这种4bit量化，显存需求直接砍半。注意！别用纯CPU跑，推理速度慢到怀疑人生，除非你只想体验代码画图。

部署技巧：
1. 关闭不用的后台程序，留足RAM
2. 用--ctx-size 2048控制上下文长度，别贪大
3. 小模型用CPU+GPU混合推理，能省显存

最后问一句：你们跑7B模型时，遇到爆显存是加资源还是直接换小模型？评论区聊聊。

欢迎光临闲社 (https://www.xianshe.com/)