闲社

标题: 【新手教程】从零开始部署 Ollama：本地运行大模型的完整指南 [打印本页]

作者: gue3004 时间: 1 小时前
标题: 【新手教程】从零开始部署 Ollama：本地运行大模型的完整指南
从零开始部署 Ollama：本地运行大模型的完整指南

发布时间：2026-06-22 | 适合人群：AI 新手、想本地跑模型的开发者

一、什么是 Ollama？

Ollama 是目前最流行的本地大模型运行工具之一，它让你无需复杂配置就能在本地机器上运行 Llama、Qwen、Gemma 等开源大模型。最近 Ollama 更新到了 v0.30.10，带来了不少新特性：

支持 Apple Silicon 的 MLX 引擎运行 Command A 和 North 系列模型
新增 Cohere2Moe 架构支持
改进 prompt caching，KV 缓存复用更高效
支持 ollama launch 启动多种 AI 助手（如 Hermes Desktop、Codex、Pi 等）
新增 Nemotron-3-Ultra、Gemma 4 系列模型支持

二、前置条件

在开始之前，请确认你的环境满足以下要求：

操作系统：macOS 11+ / Windows 10+ / Linux（Ubuntu 20.04+ 推荐）
内存：至少 8GB RAM（运行 7B 模型），16GB+ 更佳
存储：至少 10GB 可用空间（模型文件较大）
网络：首次下载模型需要联网
可选：NVIDIA GPU（CUDA）或 Apple Silicon（M1/M2/M3）可大幅提升推理速度

三、安装步骤

步骤 1：下载安装 Ollama

# macOS / Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# Windows 用户直接下载安装包：
# https://ollama.com/download/windows

复制代码

安装完成后，验证是否成功：

ollama --version
# 应显示类似：ollama version 0.30.10

复制代码

步骤 2：拉取并运行模型

以目前很火的 Qwen 2.5 为例：

# 下载并运行 7B 参数模型
ollama run qwen2.5:7b
# 如果显存充足，可以尝试更大的 14B 模型
ollama run qwen2.5:14b

复制代码

首次运行会自动下载模型，下载完成后即可在终端与模型对话。

步骤 3：使用 OpenAI 兼容 API

Ollama 默认在本地启动 API 服务，可以直接用 OpenAI 格式的客户端调用：

# 确保服务在运行
ollama serve
# API 地址：http://localhost:11434
# 模型列表会自动与已下载的模型同步

复制代码

Python 调用示例：

import requests
response = requests.post('http://localhost:11434/v1/chat/completions', json={
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "你好"}]
})
print(response.json()['choices'][0]['message']['content'])

复制代码

步骤 4：使用 ollama launch 启动 AI 助手（新功能）

v0.30+ 新增了 launch 命令，可以快速启动各种 AI 工具：

# 启动 Hermes 桌面助手
ollama launch hermes-desktop
# 启动 Codex 编程助手
ollama launch codex
# 启动 Pi 助手
ollama launch pi

复制代码

四、验证安装

运行以下命令测试模型是否正常工作：

ollama run qwen2.5:7b
>>> 你好，请介绍一下自己

复制代码

如果能正常回复，说明安装成功！

五、常见问题与解决

Q1：下载模型速度慢怎么办？
A：可以设置镜像源加速，或手动下载 GGUF 文件后通过 Modelfile 导入。

Q2：显存不足怎么运行大模型？
A：使用量化版本，如 qwen2.5:7b-q4_K_M，或开启 CPU 推理（速度较慢）。

Q3：如何同时运行多个模型？
A：Ollama 会自动管理内存，加载新模型时会卸载旧模型。如需并行，可启动多个 Ollama 实例。

Q4：Windows 上安装后命令找不到？
A：确保 Ollama 已添加到系统 PATH，或重启终端后重试。

Q5：如何自定义模型参数（temperature、system prompt 等）？
A：创建 Modelfile：

FROM qwen2.5:7b
PARAMETER temperature 0.7
SYSTEM "你是一个专业的编程助手"

复制代码

然后执行：

ollama create my-model -f Modelfile
ollama run my-model

复制代码

六、进阶推荐

搭配 OpenWebUI：给 Ollama 加一个漂亮的 Web 界面
搭配 Dify：构建基于本地模型的 AI 应用和工作流
搭配 Continue.dev：在 VS Code 中直接调用本地模型辅助编程

总结

Ollama 是目前本地部署大模型最简单的方案之一，特别适合：

想保护数据隐私（本地运行，不上传云端）
网络环境不稳定（下载一次，离线使用）
学习和实验（快速切换不同模型对比效果）

最新 v0.30.10 版本在 Apple Silicon 上的 MLX 优化、prompt caching 改进、以及 launch 命令的支持，让本地 AI 体验更上一层楼。如果你还没试过，现在就是最佳时机！

有任何问题欢迎在楼下留言交流，我会尽力解答。

欢迎光临闲社 (https://www.xianshe.com/)