闲社

标题: 【新手教程】Ollama 本地部署大模型完全指南：从零搭建你的私有 AI 环境 [打印本页]

作者: dcs2000365 时间: 3 小时前
标题: 【新手教程】Ollama 本地部署大模型完全指南：从零搭建你的私有 AI 环境
【新手教程】Ollama 本地部署大模型完全指南：从零搭建你的私有 AI 环境

为什么本地部署？

最近 AI 圈有个趋势越来越明显：大家不再只依赖云端 API，而是开始在自己的电脑/服务器上跑大模型。本地部署的好处很实在：

数据隐私完全可控，敏感信息不出本机
无需网络，离线也能用 AI
没有 API 调用费用，跑多少用多少
可以自定义模型参数，玩出各种花样

今天这篇教程，手把手教你用 Ollama 这个神器，在本地快速跑起各种开源大模型。

一、前置条件

1. 硬件要求

CPU：任意现代 x86_64 或 ARM64 处理器
内存：至少 8GB（推荐 16GB+，跑 7B 模型够用）
硬盘：至少 10GB 可用空间（模型文件比较大）
GPU：可选。有 NVIDIA/AMD 显卡可以加速推理，没有也能纯 CPU 跑

2. 系统要求

macOS 10.14+
Windows 10/11（WSL2 或原生）
Linux（Ubuntu 20.04+ 推荐）

二、安装 Ollama

macOS / Linux — 一键安装

打开终端，复制粘贴这条命令：

curl -fsSL https://ollama.com/install.sh | sh

复制代码

等待几分钟，Ollama 会自动下载安装。装完后验证一下：

ollama --version

复制代码

看到版本号就说明装好了。

Windows — 安装包方式

访问 https://ollama.com/download
下载 Windows 安装包
双击安装，按向导走就行
装完后打开 PowerShell，输入 ollama --version 验证

三、拉取并运行你的第一个模型

Ollama 的模型库非常丰富，从 Llama 到 Qwen 到 DeepSeek 都有。我们以 Llama 3.1 8B 为例：

ollama pull llama3.1:8b

复制代码

下载大概 4.7GB，视网速可能需要几分钟到十几分钟。下载完成后直接对话：

ollama run llama3.1:8b

复制代码

看到提示符后就可以输入问题了，比如：

你好，请介绍一下你自己

复制代码

按 Ctrl+D 或输入 /bye 退出对话。

四、常用模型推荐

根据你的硬件配置选择：

轻量级（8GB 内存）

llama3.1:8b — Meta 开源，通用能力强
qwen2.5:7b — 阿里出品，中文表现优秀
phi4:mini — 微软小模型，速度快

中等配置（16GB 内存）

llama3.1:70b — 大参数版本，推理更准
qwen2.5:14b — 中文大模型，代码和逻辑都不错
deepseek-coder:6.7b — 编程专用，写代码很溜

高配玩家（32GB+ 内存 / 高端显卡）

llama3.1:405b — 目前开源最强，需要 200GB+ 显存/内存
mixtral:8x7b — MoE 架构，性价比很高

五、进阶玩法

1. 使用 API 调用

Ollama 默认开启本地 API 服务（端口 11434），你可以用 curl 或任何 HTTP 客户端调用：

curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "写一首关于夏天的诗"
}'

复制代码

2. 搭配 Web UI 使用

命令行对话毕竟不够友好，推荐几个图形界面：

Open WebUI — 功能最全面，类似 ChatGPT 的界面
ChatGPT-Next-Web — 轻量快速，支持多平台
Lobe Chat — 界面美观，插件丰富

安装 Open WebUI 最简单的方式是用 Docker：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

复制代码

然后浏览器访问 http://localhost:3000 就能用了。

3. 自定义系统提示词

创建你自己的模型变体：

ollama create my-assistant -f Modelfile

复制代码

Modelfile 内容示例：

FROM llama3.1:8b
SYSTEM 你是一个专业的编程助手，擅长 Python 和 JavaScript。回答要简洁，直接给出代码示例。

复制代码

六、常见问题与解决

Q1：下载模型特别慢怎么办？
A：Ollama 默认从官方仓库下载，国内用户可以用镜像加速。或者手动下载模型文件后放到 ~/.ollama/models 目录。

Q2：CPU 跑模型很卡，怎么优化？
A：

换更小的模型（如 3B 或 1B 参数版本）
使用量化版本（如 q4_0、q5_K_M），文件更小、速度更快
确保 Ollama 使用了所有 CPU 核心（默认会自动优化）

Q3：Windows 上安装失败？
A：

确保 Windows 版本是 10 19041+ 或 Windows 11
检查是否开启了 WSL2（部分功能需要）
以管理员身份运行安装程序
关闭杀毒软件临时测试（有些会误报）

Q4：怎么查看已安装的模型？
A：

ollama list

复制代码

Q5：怎么删除不需要的模型？
A：

ollama rm llama3.1:8b

复制代码

七、总结

Ollama 把本地部署大模型的门槛降到了最低。以前需要折腾 CUDA、PyTorch、各种依赖，现在一条命令就能搞定。对于新手来说，这是入坑本地 AI 最好的起点。

下一步建议：

尝试不同的模型，找到最适合你场景的
学习用 API 把 Ollama 接入你自己的应用
探索 RAG（检索增强生成），让本地模型能读你的文档
搭配 Dify 或 FastGPT 搭建自己的 AI 工作流

有问题欢迎在楼下留言，我会尽量回复。也欢迎大家分享自己的部署经验和踩坑记录！

---
本教程基于 Ollama 最新版本编写，如有更新请以官方文档为准。

欢迎光临闲社 (https://www.xianshe.com/)