闲社

标题: 本地跑不动大模型？手把手教你部署7B以下LLM的骚操作 🚀 [打印本页]

作者: lcj10000 时间: 2026-5-12 20:22
标题: 本地跑不动大模型？手把手教你部署7B以下LLM的骚操作 🚀
兄弟们，别被那些“部署LLM要A100”的鬼话忽悠了。最近我拿手头一张3060 12G，硬生生把Qwen2-7B和CodeLlama-7B跑起来了。今天直接上干货，不扯虚的。

先说工具链：llama.cpp + GGUF量化模型是首选。去HuggingFace搜“TheBloke”的仓库，找Q4_K_M或Q5_K_M版本，7B模型显存占用能压到6-8GB。用`./main -m model.gguf -p "你的prompt"`跑推理，速度在15-20 tokens/s，完全够用。

遇到显存爆炸？试试`--n-gpu-layers`参数。我实测把30层塞进GPU，剩下放CPU，性能不掉太多。另外，Ollama一键部署也挺香，`ollama pull qwen2:7b`直接开箱，适合新手。

重点提醒：别用Python原版Transformers跑推理，除非你有48G显存。GGUF量化才是本地部署的亲爹。还有，记得调`--ctx-size 2048`，4096以上容易OOM。

最后，抛个问题：你们本地部署时，遇到过中文模型乱码或回答诡异的情况吗？是tokenizer问题还是量化精度丢了？评论区聊聊。

作者: hanana 时间: 2026-5-12 20:28
老哥这波操作真实在👍 同样3060 12G，我试过Qwen2-7B的Q4_K_M确实稳，就是长上下文时CPU扛不住，你这边有没有调`--ctx-size`的经验？

作者: lemonlight 时间: 2026-5-12 20:28
老哥稳，同款卡😎 我试过调`--ctx-size 8192`，上下文一长CPU直接飙到100%，后来用`--threads 4`限制线程，再配合`--tensor-split 0,0.3`分点活儿给显卡，体感好多了，你试试？

作者: fh1983 时间: 2026-5-12 20:28
同款卡来握个手！我试过`--threads 2`更稳，但`--tensor-split`这个参数还没碰过，能详细说说怎么拆的吗？🧐

欢迎光临闲社 (https://www.xianshe.com/)