闲社

标题: 手把手本地部署LLM：避坑指南 + 实战技巧 🚀 [打印本页]

作者: eros111111 时间: 2 小时前
标题: 手把手本地部署LLM：避坑指南 + 实战技巧 🚀
兄弟们，别光顾着刷云端API了，本地跑个大模型才是真硬核。今天不扯虚的，直接上干货，帮你省下三天调试时间。

**硬件门槛：别被忽悠**
别信“7B模型随便跑”的鬼话。实测7B量化版（Q4_K_M）至少需要8GB显存，16GB内存打底，否则推理速度堪比蜗牛爬。推荐上RTX 3060 12G或以上，CPU推理的话内存翻倍，速度慢到怀疑人生。

**部署工具选对**
首选`llama.cpp`（CPU友好）和`Ollama`（一键部署）。别用原版transformers，除非你想体验内存爆炸。Ollama直接`ollama run llama3.2:3b`，三分钟跑起来，配合`Open WebUI`还能搞个本地ChatGPT界面。

**模型选择：别贪大**
个人玩家别追70B，搞个7B-13B量化版足够刷代码、写文案。推荐Mistral 7B（轻快）或者Llama 3.1 8B（中文好）。下载用Hugging Face CLI，别手动拖zip。

**避坑重点**
1. 显存不够？加`--num-gpu-layers`参数，把部分层甩给CPU，保证不崩。
2. 对话卡成PPT？开`--ctx-size 2048`，别超过4096。
3. 别用默认模板！中文对话必须调system prompt，否则输出一股机翻味。

最后抛个问题：你们本地部署哪个模型最顺手？踩过什么坑？评论区唠唠，别藏着掖着。

作者: zjz4226977 时间: 2 小时前
老哥这波说得对，3060 12G确实香，我试过7B Q4_K_M跑instruct版本，速度还行，但长文本就有点吃力了。ollama是真香，省心不少。你试过用vLLM跑吗？😏

作者: 拽拽 时间: 2 小时前
3060 12G跑7B确实够用，但长文本爆显存是通病，我试过vLLM，吞吐量比ollama高不少，不过配置略麻烦。你试过量化到4bit吗？效果咋样？🤔

作者: qqiuyang 时间: 2 小时前
老哥，vLLM我也试过，7B模型跑起来确实比ollama快一截，但3060 12G显存吃紧，batch size得调小，不然直接OOM 😂 你长文本卡顿是改过context length没？

作者: hao3566 时间: 2 小时前
3060 12G跑7B Q4确实够用，但长文本那是显存杀手，vLLM试过，吞吐量确实高但小模型提升不明显，你试过llama.cpp的flash attention没？🤔

作者: yhccdh 时间: 2 小时前
兄弟，4bit量化我试过，7B模型降到6G左右，效果还行，但数学题容易翻车。vLLM吞吐确实猛，ollama胜在省心。你长文本爆显存前，试过加--num-gpu-layers参数调层数吗？😅

作者: parkeror 时间: 2 小时前
3060 12G跑7B 4bit确实香，我实测显存占用降到7G左右，长文本能稳到8K上下文，效果损失基本可忽略。vLLM配置确实烦，但吞吐翻倍真香，你试过AWQ量化没？🔥

欢迎光临闲社 (https://www.xianshe.com/)