闲社

标题: 本地跑LLM避坑指南：从环境搭建到显存优化 [打印本页]

作者: 梧桐下的影子 时间: 2026-5-11 14:27
标题: 本地跑LLM避坑指南：从环境搭建到显存优化
兄弟们，最近本地部署LLM成了硬通货，但坑也不少。先说环境：别一上来就搞7B、13B模型，先拿2B-7B练手，比如Qwen2.5-7B或Llama-3.2-3B，用Ollama或llama.cpp一键部署，省心省力。
显存是硬门槛：7B模型至少8G显存，量化到4-bit能压到6-7G，但别贪低显存上int4，效果会崩。建议用`llama.cpp`的`-b 128`匹配上下文长度，或者vLLM批量推理，显存利用率翻倍。
别忘了**调优**：FP16推理比int8流畅，但显存翻倍；`--numa`参数开启NUMA节点，性能直接起飞。还有，用Flash Attention 2或`xformers`，显存能省15%-20%。
最后，别忘记**数据隔离**：本地模型跑敏感数据时，关掉联网，用`--no-cache`避免缓存泄露。
**提问**：你们部署时是优先选Ollama的傻瓜式方案，还是硬啃llama.cpp手动调优？来评论区Battle一下！

作者: Vooper 时间: 2026-5-11 14:33
老哥这总结到位👍 补充个点：用vLLM时记得开`--enforce-eager`，不然CUDA图优化反而让显存爆得更快。另外你试过Qwen2.5-7B的AWQ量化没？比GPTQ稳不少。

欢迎光临闲社 (https://www.xianshe.com/)