闲社
标题:
【大模型】本地部署大模型全攻略:从Ollama到vLLM,你的显卡能跑什么?
[打印本页]
作者:
hhszh
时间:
3 小时前
标题:
【大模型】本地部署大模型全攻略:从Ollama到vLLM,你的显卡能跑什么?
很多人想在自己的电脑上跑大模型,但面对一堆工具名称和硬件参数就懵了。Ollama、vLLM、LM Studio、llama.cpp...到底该用哪个?8G显存能跑什么模型?这篇文章给你一份清晰的选型指南。
一、先搞清楚你的硬件水平
选工具之前,先诚实面对你的显卡:
8G 显存及以下
(RTX 3060/4060、M1/M2 Pro):适合跑 7B 量化版(Q4级别),比如 Qwen2.5-7B、Llama-3.1-8B
16G 显存
(RTX 4070/4080、M3 Pro):可以跑 13B 量化版或 7B 全精度,体验明显提升
24G 显存
(RTX 3090/4090):13B 全精度或 30B 量化版,本地部署的黄金配置
48G+ 显存
(A100/L40S/A6000):70B 量化版或 30B 全精度,接近生产环境
没有独显?别慌,CPU + 内存也能跑,只是速度慢 5-10 倍,适合尝鲜。
二、四大主流工具对比
1. Ollama —— 新手首选
特点:一行命令安装,一键下载模型,零配置开箱即用。
安装:
curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen2.5:7b
复制代码
优点:极简、跨平台、支持 Modelfile 自定义
缺点:性能不是最优,高级调参能力有限
适合人群:想快速体验、不想折腾配置的用户
2. LM Studio —— 图形界面党福音
特点:带 GUI 的桌面应用,支持模型搜索、聊天、本地 API 服务。
亮点功能:
内置 HuggingFace 模型浏览器,一键下载
支持多模型并发加载
提供兼容 OpenAI 的本地 API(localhost:1234)
适合人群:不喜欢命令行、想要可视化操作的用户
3. llama.cpp —— 极致性能追求者
特点:C/C++ 实现,支持各种量化格式(GGUF),CPU 上也能跑得动。
典型用法:
./main -m qwen2.5-7b-q4_k_m.gguf -n 512 --temp 0.7
复制代码
优点:性能极致、量化支持最全、生态最成熟
缺点:命令行操作,学习曲线陡峭
适合人群:追求推理速度、愿意折腾的技术用户
4. vLLM —— 生产环境首选
特点:专为高吞吐推理设计,采用 PagedAttention 技术,支持连续批处理。
启动服务:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--tensor-parallel-size 1
复制代码
优点:吞吐量极高、兼容 OpenAI API、支持多卡并行
缺点:配置复杂、对显存要求较高
适合人群:需要搭建本地 API 服务、有并发需求的开发者
三、选型决策树
想快速试试?→ Ollama
想要图形界面?→ LM Studio
追求极致性能且会命令行?→ llama.cpp
要部署生产级 API 服务?→ vLLM
四、一个实用的性能参考
以 RTX 4090(24G 显存)运行 Qwen2.5-14B 为例:
Ollama:约 40-50 tokens/s
llama.cpp(GGUF Q4):约 60-80 tokens/s
vLLM(FP16):约 80-120 tokens/s
注意:实际速度受模型大小、量化精度、上下文长度、批处理大小等多因素影响。
五、常见问题 FAQ
Q:为什么我的模型输出很蠢?
A:大概率是模型太小了。7B 模型智商有限,14B 以上才有明显质变。
Q:量化是什么意思?Q4、Q8 有什么区别?
A:量化是把模型参数从 16 位浮点压缩到 4 位或 8 位整数,减少显存占用。Q4 省显存但精度损失大,Q8 更平衡。
Q:Mac 能跑吗?
A:能。M 系列芯片用 llama.cpp 或 Ollama 表现很好,统一内存架构让 Mac 在 16G/32G 内存下反而有优势。
写在最后
本地部署大模型最大的价值不是替代云端 API,而是让你拥有完全私有的 AI 能力——数据不出本机、无需联网、零订阅费用。对于处理敏感文档、代码审查、个人知识库问答等场景,本地部署是刚需。
你目前在用什么工具跑本地模型?遇到过哪些坑?欢迎分享你的配置和经验!👇
参考链接:
Ollama 官网
LM Studio 官网
llama.cpp GitHub
vLLM GitHub
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0