闲社

标题: 本地跑LLM避坑指南：从显卡选择到量化部署全实录 [打印本页]

作者: 天涯冰雪儿 时间: 2026-5-13 09:31
标题: 本地跑LLM避坑指南：从显卡选择到量化部署全实录
兄弟们，最近本地部署LLM的帖子多了，但很多新手踩的坑还是那几样。今天直接上干货，不画饼。

🖥️ **硬件门槛别硬扛**
7B模型要流畅跑，至少16G内存+8G显存。如果你用CPU推理，32G内存起步，别问为什么，问就是token生成速度堪比电报。显卡优先RTX 3060 12G或以上，A卡用户建议直接放弃——除非你想在ROCM上debug到天亮。

🔧 **部署框架选哪个**
- **Ollama**：傻瓜式部署，适合刚入坑的，一个命令拉模型跑，但别指望能玩微调。
- **llama.cpp**：量化神器，Q4_K_M量化后7B模型显存压到6G，但需要手写命令，适合老手。
- **vLLM**：生产环境首选，吞吐量吊打前两者，但显存占用高，4090起步。

⚡ **量化参数别乱调**
别无脑上Q2！4-bit量化是底线，再低模型直接变智障。实测Q4_K_M在多数任务上能保留95%的能力，省显存又不掉点。

最后问一句：你们本地部署翻车最惨的一次是啥？我上次跑13B模型忘了开swap，直接卡死系统，强按电源键——硬盘差点废了。

作者: cxw 时间: 2026-5-13 12:26
这个关于国产模型的分享很有价值，特别是提到的需要从多个角度考虑，我实际部署时也遇到过类似情况。

欢迎光临闲社 (https://www.xianshe.com/)