【大模型】本地部署大模型全攻略：从Ollama到vLLM，你的显卡能跑什么？

显示全部楼层

很多人想在自己的电脑上跑大模型，但面对一堆工具名称和硬件参数就懵了。Ollama、vLLM、LM Studio、llama.cpp...到底该用哪个？8G显存能跑什么模型？这篇文章给你一份清晰的选型指南。

一、先搞清楚你的硬件水平

选工具之前，先诚实面对你的显卡：

8G 显存及以下（RTX 3060/4060、M1/M2 Pro）：适合跑 7B 量化版（Q4级别），比如 Qwen2.5-7B、Llama-3.1-8B

16G 显存（RTX 4070/4080、M3 Pro）：可以跑 13B 量化版或 7B 全精度，体验明显提升

24G 显存（RTX 3090/4090）：13B 全精度或 30B 量化版，本地部署的黄金配置

48G+ 显存（A100/L40S/A6000）：70B 量化版或 30B 全精度，接近生产环境

没有独显？别慌，CPU + 内存也能跑，只是速度慢 5-10 倍，适合尝鲜。

二、四大主流工具对比

1. Ollama —— 新手首选

特点：一行命令安装，一键下载模型，零配置开箱即用。

安装：

curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen2.5:7b

复制代码

优点：极简、跨平台、支持 Modelfile 自定义
缺点：性能不是最优，高级调参能力有限
适合人群：想快速体验、不想折腾配置的用户

2. LM Studio —— 图形界面党福音

特点：带 GUI 的桌面应用，支持模型搜索、聊天、本地 API 服务。

亮点功能：

内置 HuggingFace 模型浏览器，一键下载

支持多模型并发加载

提供兼容 OpenAI 的本地 API（localhost:1234）

适合人群：不喜欢命令行、想要可视化操作的用户

3. llama.cpp —— 极致性能追求者

特点：C/C++ 实现，支持各种量化格式（GGUF），CPU 上也能跑得动。

典型用法：

./main -m qwen2.5-7b-q4_k_m.gguf -n 512 --temp 0.7

复制代码

优点：性能极致、量化支持最全、生态最成熟
缺点：命令行操作，学习曲线陡峭
适合人群：追求推理速度、愿意折腾的技术用户

4. vLLM —— 生产环境首选

特点：专为高吞吐推理设计，采用 PagedAttention 技术，支持连续批处理。

启动服务：

python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--tensor-parallel-size 1

复制代码

优点：吞吐量极高、兼容 OpenAI API、支持多卡并行
缺点：配置复杂、对显存要求较高
适合人群：需要搭建本地 API 服务、有并发需求的开发者

三、选型决策树

想快速试试？→ Ollama
想要图形界面？→ LM Studio
追求极致性能且会命令行？→ llama.cpp
要部署生产级 API 服务？→ vLLM

四、一个实用的性能参考

以 RTX 4090（24G 显存）运行 Qwen2.5-14B 为例：

Ollama：约 40-50 tokens/s

llama.cpp（GGUF Q4）：约 60-80 tokens/s

vLLM（FP16）：约 80-120 tokens/s

注意：实际速度受模型大小、量化精度、上下文长度、批处理大小等多因素影响。

五、常见问题 FAQ

Q：为什么我的模型输出很蠢？
A：大概率是模型太小了。7B 模型智商有限，14B 以上才有明显质变。

Q：量化是什么意思？Q4、Q8 有什么区别？
A：量化是把模型参数从 16 位浮点压缩到 4 位或 8 位整数，减少显存占用。Q4 省显存但精度损失大，Q8 更平衡。

Q：Mac 能跑吗？
A：能。M 系列芯片用 llama.cpp 或 Ollama 表现很好，统一内存架构让 Mac 在 16G/32G 内存下反而有优势。

写在最后

本地部署大模型最大的价值不是替代云端 API，而是让你拥有完全私有的 AI 能力——数据不出本机、无需联网、零订阅费用。对于处理敏感文档、代码审查、个人知识库问答等场景，本地部署是刚需。

你目前在用什么工具跑本地模型？遇到过哪些坑？欢迎分享你的配置和经验！👇

参考链接：
Ollama 官网
LM Studio 官网
llama.cpp GitHub
vLLM GitHub

【大模型】OpenAI Academy新课程上线：AI落

【大模型】本地部署大模型全攻略：从Ollama

【大模型】Prompt工程进阶指南：从会提问到

【AI资讯】OpenAI宣布收购Ona，为Codex打造

【AI资讯】OpenAI收购Ona，Codex将支持云端

【AI资讯】Gemini 2.5 Pro 更新 - Google

【AI资讯】Qwen3 系列模型发布 - 阿里通义

Stable Diffusion 3.5 Turbo实测：5秒出图

LlamaIndex发布Agent RAG新范式：动态路由+

AWQ与GPTQ之后：W4A4量化方案DeepShift实测

【大模型】本地部署大模型全攻略：从Ollama到vLLM，你的显卡能跑什么？