【新手教程】Ollama 本地部署大模型完全指南:从零搭建你的私有 AI 环境
为什么本地部署?
最近 AI 圈有个趋势越来越明显:大家不再只依赖云端 API,而是开始在自己的电脑/服务器上跑大模型。本地部署的好处很实在:
- 数据隐私完全可控,敏感信息不出本机
- 无需网络,离线也能用 AI
- 没有 API 调用费用,跑多少用多少
- 可以自定义模型参数,玩出各种花样
今天这篇教程,手把手教你用 Ollama 这个神器,在本地快速跑起各种开源大模型。
一、前置条件
1. 硬件要求
- CPU:任意现代 x86_64 或 ARM64 处理器
- 内存:至少 8GB(推荐 16GB+,跑 7B 模型够用)
- 硬盘:至少 10GB 可用空间(模型文件比较大)
- GPU:可选。有 NVIDIA/AMD 显卡可以加速推理,没有也能纯 CPU 跑
2. 系统要求
- macOS 10.14+
- Windows 10/11(WSL2 或原生)
- Linux(Ubuntu 20.04+ 推荐)
二、安装 Ollama
macOS / Linux — 一键安装
打开终端,复制粘贴这条命令:- curl -fsSL https://ollama.com/install.sh | sh
复制代码
等待几分钟,Ollama 会自动下载安装。装完后验证一下:看到版本号就说明装好了。
Windows — 安装包方式
三、拉取并运行你的第一个模型
Ollama 的模型库非常丰富,从 Llama 到 Qwen 到 DeepSeek 都有。我们以 Llama 3.1 8B 为例:
下载大概 4.7GB,视网速可能需要几分钟到十几分钟。下载完成后直接对话:
看到提示符后就可以输入问题了,比如:
按 Ctrl+D 或输入 /bye 退出对话。
四、常用模型推荐
根据你的硬件配置选择:
轻量级(8GB 内存)
- llama3.1:8b — Meta 开源,通用能力强
- qwen2.5:7b — 阿里出品,中文表现优秀
- phi4:mini — 微软小模型,速度快
中等配置(16GB 内存)
- llama3.1:70b — 大参数版本,推理更准
- qwen2.5:14b — 中文大模型,代码和逻辑都不错
- deepseek-coder:6.7b — 编程专用,写代码很溜
高配玩家(32GB+ 内存 / 高端显卡)
- llama3.1:405b — 目前开源最强,需要 200GB+ 显存/内存
- mixtral:8x7b — MoE 架构,性价比很高
五、进阶玩法
1. 使用 API 调用
Ollama 默认开启本地 API 服务(端口 11434),你可以用 curl 或任何 HTTP 客户端调用:
- curl http://localhost:11434/api/generate -d '{
- "model": "llama3.1:8b",
- "prompt": "写一首关于夏天的诗"
- }'
复制代码
2. 搭配 Web UI 使用
命令行对话毕竟不够友好,推荐几个图形界面:
- Open WebUI — 功能最全面,类似 ChatGPT 的界面
- ChatGPT-Next-Web — 轻量快速,支持多平台
- Lobe Chat — 界面美观,插件丰富
安装 Open WebUI 最简单的方式是用 Docker:- docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
复制代码
然后浏览器访问 http://localhost:3000 就能用了。
3. 自定义系统提示词
创建你自己的模型变体:
- ollama create my-assistant -f Modelfile
复制代码
Modelfile 内容示例:- FROM llama3.1:8b
- SYSTEM 你是一个专业的编程助手,擅长 Python 和 JavaScript。回答要简洁,直接给出代码示例。
复制代码
六、常见问题与解决
Q1:下载模型特别慢怎么办?
A:Ollama 默认从官方仓库下载,国内用户可以用镜像加速。或者手动下载模型文件后放到 ~/.ollama/models 目录。
Q2:CPU 跑模型很卡,怎么优化?
A:
- 换更小的模型(如 3B 或 1B 参数版本)
- 使用量化版本(如 q4_0、q5_K_M),文件更小、速度更快
- 确保 Ollama 使用了所有 CPU 核心(默认会自动优化)
Q3:Windows 上安装失败?
A:
- 确保 Windows 版本是 10 19041+ 或 Windows 11
- 检查是否开启了 WSL2(部分功能需要)
- 以管理员身份运行安装程序
- 关闭杀毒软件临时测试(有些会误报)
Q4:怎么查看已安装的模型?
A:
Q5:怎么删除不需要的模型?
A:
七、总结
Ollama 把本地部署大模型的门槛降到了最低。以前需要折腾 CUDA、PyTorch、各种依赖,现在一条命令就能搞定。对于新手来说,这是入坑本地 AI 最好的起点。
下一步建议:
- 尝试不同的模型,找到最适合你场景的
- 学习用 API 把 Ollama 接入你自己的应用
- 探索 RAG(检索增强生成),让本地模型能读你的文档
- 搭配 Dify 或 FastGPT 搭建自己的 AI 工作流
有问题欢迎在楼下留言,我会尽量回复。也欢迎大家分享自己的部署经验和踩坑记录!
---
本教程基于 Ollama 最新版本编写,如有更新请以官方文档为准。 |