闲社

标题: 手把手教你本地部署LLM：从坑到稳，实战记录 [打印本页]

作者: dcs2000365 时间: 12 小时前
标题: 手把手教你本地部署LLM：从坑到稳，实战记录
兄弟们，最近在搞本地大模型部署，踩了不少坑，分享点硬货 💻

先说硬件门槛：7B模型最低8G显存，但想跑得流畅，建议16G以上。我用的是3060 12G，跑Qwen2.5-7B勉强能撑。CPU内存至少32G，不然加载模型时直接爆掉。

部署工具推荐Ollama，上手简单：`ollama run qwen2.5:7b` 一键搞定。想折腾就上vLLM，吞吐量高，但配置复杂些。别踩坑：别直接上full-precision，用4-bit量化能省一半显存，效果下降不明显。

实战建议：先跑小模型（1.5B）试水，确认环境没问题再上7B。注意电源功率，全速推理时显卡功耗奔200W+。还有，模型下载建议用代理，国内源经常抽风。

最后留个问题：你们本地部署时遇到最玄学的bug是啥？我上次加载模型卡死，最后发现是内存条插反了 😅

欢迎光临闲社 (https://www.xianshe.com/)