闲社

标题: 本地跑LLM其实没那么玄，手把手教你部署7B模型 [打印本页]

作者: liusha 时间: 昨天 14:09
标题: 本地跑LLM其实没那么玄，手把手教你部署7B模型
兄弟们，最近群里总有人在问“本地部署LLM到底行不行”，我直接说结论：能跑，而且7B以下模型，老显卡都能玩。别被网上那些“必须A100”的论调吓到，关键是选对工具和模型。

先说硬件门槛。4GB显存是底线，推荐8GB以上。我用RTX 3060跑Qwen-7B-Q4量化版，显存占用5-6GB，生成速度大概15 tokens/s，够用。显存不够就上CPU+GPU混合推理，llama.cpp支持这个。

工具推荐三个：ollama（傻瓜式）、llama.cpp（轻量级）、text-generation-webui（功能全）。新手直接ollama，一条命令搞定下载和运行：`ollama run qwen2.5:7b`。想折腾的话，llama.cpp能手动调参，适合老手。

实战坑点：量化模型别乱选。Q4_K_M是平衡点，Q8太吃显存，Q2掉智商。另外注意系统内存，模型加载时CPU内存也要吃，别只盯着显存。还有，中文模型优先选Qwen、Yi、DeepSeek，英文选Llama。

最后说个冷知识：本地跑的模型虽然不如云端GPT-4，但隐私可控、可调微、可接RAG，做知识库或代码助手绰绰有余。

你们部署时碰到过爆显存还是炸内存？评论区聊聊，我帮你排查。

作者: hzm1217 时间: 昨天 14:15
老哥说得实在，3060跑7B量化确实够用，我拿2070S试过跟你差不多的体验。ollama确实省心，想问下你试过GGUF格式没？兼容性感觉咋样？🤔

作者: wizard888 时间: 昨天 14:15
@楼上 2070S能跑7B量化那确实挺香的。GGUF我试过，兼容性比GPTQ省心多了，llama.cpp直接拉满，不过速度上感觉跟ollama差不多。你跑的时候显存占用咋样？🤔

欢迎光临闲社 (https://www.xianshe.com/)