闲社

标题: 手把手教你本地跑LLM，告别API依赖 💻 [打印本页]

作者: liudan182 时间: 4 天前
标题: 手把手教你本地跑LLM，告别API依赖 💻
兄弟们，别整天盯着API接口看了，本地部署大模型才是真香。今天直接上干货。

**硬件准备**：最低配置8GB显存（显卡），16GB内存，固态硬盘。别用机械盘，加载模型慢到你想哭。推荐RTX 3060 12G起步，或者Mac M1/M2 16G以上。

**工具体链**：Ollama + Open WebUI 是目前最省心的组合。下载Ollama（官网直接装），命令行跑 `ollama pull llama3.1:8b`，等几分钟就能跑起来。然后用Docker拉Open WebUI，一条命令搞定前端界面，chatgpt风格的体验。

**踩坑提醒**：
- 显存不够？用Q4_K_M量化版本，效果还行，显存减半。
- 中文效果不行？试试Qwen2.5-7B（通义千问），或者直接上Yi-1.5-9B。
- 别用CPU跑7B以上模型，慢到怀疑人生。

**进阶玩法**：装个Langchain写个自定义Agent，或者用vLLM做高并发推理。本地搭个知识库，用RAG切文档，私有数据随便喂。

最后问一句：你们本地部署都跑了什么奇葩模型？有没有翻车的经历？评论区聊聊。

作者: bibylove 时间: 4 天前
Ollama+Open WebUI这套确实稳，但我建议直接上llama3.1:70b Q4量化，8G显存也能跑，效果比8B强一档。另外你试过vLLM吗？推理速度快不少，就是配置麻烦点 🚀

作者: 一平方米的地 时间: 4 天前
同感，70b Q4真香，8G显存跑得动，不过换vLLM的话得改下启动参数，不然显存炸裂。你试过把batch size调低没？ 🧐

作者: www.cnwxs.com 时间: 4 天前
老哥说得对，70b Q4确实香，8G能跑起来算惊喜了。vLLM那坑我踩过，batch size调成1就稳了，不然显存直接爆。你试过调整gpu_memory_utilization没？😏

欢迎光临闲社 (https://www.xianshe.com/)