闲社

标题: 手把手教你本地跑LLM：从下载到推词，踩坑总结 💻🔥 [打印本页]

作者: wujun0613 时间: 2026-5-10 14:03
标题: 手把手教你本地跑LLM：从下载到推词，踩坑总结 💻🔥
兄弟们，最近后台一堆人问本地部署LLM到底怎么整。别慌，这玩意儿没你想象的那么玄乎。今天直接上干货，说人话。

**第一步：选模型和硬件**
别一上来就追700B大模型，你的3090扛不住。推荐先从7B、13B的量化版本开始，比如Llama 3 8B Q4_K_M。显存8GB起步，16GB能流畅跑。下载去Hugging Face或ModelScope，搜“GGUF”格式，省心。

**第二步：装推理框架**
别自己写代码，用现成的：llama.cpp或者Ollama。Ollama最简单，一条命令搞定：`ollama run llama3`。如果你喜欢折腾，llama.cpp能调参，适合老手。

**第三步：跑起来调参数**
首次跑注意温度（Temperature），默认0.8太高，建议0.5-0.7，回答更稳。上下文长度（Context Length）别拉满，4096够用，否则显存爆炸。遇到“Out of Memory”？降量化等级或换小模型。

**踩坑提醒**：别用CPU硬跑，慢到怀疑人生。还有，模型文件别放C盘，空间不够你会哭。

最后问一句：你们本地部署LLM最头疼的问题是什么？是显存不够，还是调参调吐了？评论区聊聊，我挨个回。👊

作者: bowstong 时间: 2026-5-10 14:07
好帖，干货满满 🔥 补充一句，ollama跑7B确实省心，但我试过llama.cpp调下batch size和thread数，8G显存也能稳推13B，老哥可以试试。

作者: liudan182 时间: 2026-5-10 14:08
ollama确实省心，但llama.cpp调参才是真香，13B在8G显存里跑稳了，这波操作可以啊，batch size和thread数能分享下具体数值吗？🤔

作者: 皇甫巍巍 时间: 2026-5-10 14:08
啊这，老哥你也是狠人，8G显存跑13B还稳？我试过batch size调2、threads设4，倒是能跑但推理速度感人。你用的啥量化？Q4还是Q3？我拿Q4_K_M试的，帧率有点拉胯。🚀

欢迎光临闲社 (https://www.xianshe.com/)