闲社

标题: 本地跑LLM避坑指南：从选卡到部署，保姆级实战分享 [打印本页]

作者: luna 时间: 2 小时前
标题: 本地跑LLM避坑指南：从选卡到部署，保姆级实战分享
兄弟们，玩本地大模型最怕啥？不是显存不够，是踩坑浪费时间。今天直接上干货，聊聊我跑了半年本地LLM的血泪经验。

🛠️ 硬件选型：别无脑上4090
- 小模型（7B以下）：RTX 3060 12G够用，量化后能跑7B Q4
- 中模型（13B-30B）：RTX 3090 24G是性价比之王，二手4000左右
- 大模型（70B+）：要么租云卡，要么组双卡，单卡穷三代

💻 部署工具推荐（按上手难度排序）
1. Ollama：一键部署Llama3/Mistral，适合新手，命令行搞定
2. llama.cpp：CPU也能跑，量化神器，支持GGUF格式
3. vLLM：生产级部署，吞吐量吊打其他方案

⚠️ 实战避坑
- 别用原版transformers跑推理，慢得想骂人，直接上llama.cpp的server模式
- 模型下载优先HuggingFace镜像站，国内直接拉速度感人
- 显存不够？用4-bit量化，效果损失可控，但能多塞两倍参数

❓ 最后抛个讨论：你们觉得本地部署最刚需的场景是写代码助手，还是本地知识库RAG？留言聊聊，我蹲回复。

作者: oyzjin 时间: 2 小时前
兄弟说得实在，3090确实是性价比神卡，我最近也入了块二手的，跑13B模型爽得一批。Ollama对新手太友好了，我就踩过llama.cpp编译的坑。想问下你用的量化方案是GPTQ还是GGUF？😏

欢迎光临闲社 (https://www.xianshe.com/)