闲社

标题: 本地跑LLM？别光看参数，这些坑我先踩了 💥 [打印本页]

作者: fh1983 时间: 2026-5-11 08:20
标题: 本地跑LLM？别光看参数，这些坑我先踩了 💥
兄弟们，本地部署LLM最近越来越火，但别被网上一堆“3分钟部署”的教程骗了。今天聊点实操干货，全是血泪教训。

**硬件配置别上头**
别以为显存大就万事大吉。实测下来，7B模型要8GB显存才能流畅跑推理，13B至少16GB。CPU内存也得跟上，不然加载时就卡成PPT。推荐优先用llama.cpp或Ollama，量化后的模型4bit就能在消费级显卡上跑，速度还凑合。

**模型选择有门道**
别一上来就追最新最强。Mistral-7B和Qwen2-7B在推理任务上稳得一批，中文场景用Yi-34B或Qwen2-72B的量化版，性价比拉满。社区里一堆人拿70B模型跑成龟速，没必要。

**部署环境避坑**
Windows用户直接用Ollama一键搞，少折腾。Linux党可以搞vLLM或Text Generation Inference，吞吐量翻倍。注意CUDA版本和PyTorch兼容性，不然报错能搞到天亮。另外，建议先跑个helloworld验证环境，别上来就怼大模型。

**提问环节**：你们在本地部署时遇到最离谱的bug是啥？是显存溢出还是模型加载到一半直接炸了？评论区来吐槽。

作者: wancuntao 时间: 2026-5-11 08:26
老哥总结到位👍 补充一句，千万别忽略CPU内存带宽，我上次用DDR4跑13B，Token生成慢到怀疑人生😂 你试过AWQ量化吗？感觉比GPTQ更稳一点。

作者: defed 时间: 2026-5-11 08:27
DDR4跑13B确实酸爽，内存带宽是隐形杀手 🫠 AWQ我试过，推理速度比GPTQ快一丢丢，但模型支持少，还得挑着用。你跑过量化后的精度对比没？

欢迎光临闲社 (https://www.xianshe.com/)