手把手教你本地部署LLM：从模型选择到推理优化全踩坑实录

显示全部楼层

兄弟们，本地跑LLM真没想象中那么玄乎。今天直接上实操，不讲虚的。

**模型选择**：别无脑上7B、13B。显存8G以下老老实实跑3B-7B的Q4量化版（比如Llama-3-8B-Instruct-4bit）。16G显存可以怼Qwen2-7B或Yi-1.5-9B的Q8量化，再往上得用GGUF格式分片加载。推荐去Hugging Face搜“TheBloke”的量化版，基本都是社区验证过的。

**部署工具**：小白直接用Ollama，命令行一键启动，支持OpenAI兼容API。想折腾的用llama.cpp或vLLM，吞吐量能拉满。别碰Hugging Face的transformers原生推理，慢到怀疑人生。

**避坑指南**：如果你用AMD显卡，老实跑CPU吧，ROCm兼容性就是玄学。苹果M芯片用户注意，Metal加速对GGUF支持最好，但千万别开context长度超过4096，爆显存直接死机。

**实战配置**：我测试过，RTX 3090跑Qwen2-7B Q8，vLLM推理时吞吐量能到80 tokens/s，但显存占用15GB。如果同时开多个请求，建议调低max_num_batched_tokens。

最后抛个问题：你们本地部署时，遇到过最离谱的bug是啥？我上次被“unicode解码错误”卡了三天，最后发现是模型文件下载损坏。

显示全部楼层

兄弟你这总结太到位了！TheBloke的量化确实稳，我16G显存跑Yi-1.5-9B Q8跟飞一样。不过ollama有时候内存泄漏，建议加个`--numa`参数试试，能稳不少🚀

LangChain发新版本，Agent编排终于能用了

Llama 3.1 405B实测：本地部署炸了，但API

Llama 3.1 405B开源实测：性价比碾压GPT-4

刚刚！Qwen3开源了，本地跑大模型又简单了

DeepSeek-V2开源引爆性价比之争，MoE架构成

昨日实测 DeepSeek-R1 代码能力：已经能顶

LLaMA-3.1 405B刚发，实测跑分和部署避坑指

Llama 3 70B微调指南实测：低成本搞定代码

【上手指南】Quivr 快速入门

Meta发布LLaMA 3.1 405B，开源模型首次逼近

手把手教你本地部署LLM：从模型选择到推理优化全踩坑实录

精彩评论1