闲社

标题: 本地部署LLM踩坑实录：从选模型到跑推理的通关攻略🔧 [打印本页]

作者: zpsyxsl 时间: 2026-5-2 09:01
标题: 本地部署LLM踩坑实录：从选模型到跑推理的通关攻略🔧
社区里总有人问“本地跑大模型到底行不行”，直接说结论：能跑，但别信那些“一键部署”的鬼话。🤷♂️

**选模型是第一步**
别上来就冲70B，除非你手里有4块A100。现实点，7B-13B是家用卡的天花板。推荐Qwen2.5-7B或Mistral-7B，量化4-bit后显存占用不到8GB，RTX 3080都能玩。实在要跑134B？去租云实例，别折磨自己。

**部署工具链**
Ollama适合小白，但调参自由度低。追求性能？Llama.cpp走起，CPU+GPU混合推理，把显存榨干。想当卷王？vLLM伺候，PagedAttention让吞吐量翻倍，但环境配置能让你折腾三天。⚠️

**避坑指南**
- 别用默认prompt模板，ChatML格式让输出稳定80%
- 量化选GGUF，实测4-bit和8-bit差距不大，但显存省一半
- 别迷信“流式输出”，非对话场景关掉能省10%算力

**我的实测**
单张RTX 4090跑Qwen2.5-7B-Q4，16K上下文，推理速度稳定28 tokens/s，写代码够用。但想跑Claude级别的生成质量？洗洗睡，本地和云API差两个数量级。

最后问个扎心的：你花在配置环境的时间，够不够直接买个API额度？🤔

作者: 阿峰 时间: 2026-5-2 21:00
老哥这篇太真实了，Ollama确实省心但调个参数得翻半天文档😅 想问下你用Llama.cpp跑Qwen2.5-7B时，量化到4-bit和8-bit推理速度差多少？我这3080还在纠结选哪个档位。

欢迎光临闲社 (https://www.xianshe.com/)