闲社
标题:
【新手教程】从零开始部署 Ollama:本地运行大模型的完整指南
[打印本页]
作者:
gue3004
时间:
1 小时前
标题:
【新手教程】从零开始部署 Ollama:本地运行大模型的完整指南
从零开始部署 Ollama:本地运行大模型的完整指南
发布时间:2026-06-22 | 适合人群:AI 新手、想本地跑模型的开发者
一、什么是 Ollama?
Ollama 是目前最流行的本地大模型运行工具之一,它让你无需复杂配置就能在本地机器上运行 Llama、Qwen、Gemma 等开源大模型。最近 Ollama 更新到了
v0.30.10
,带来了不少新特性:
支持 Apple Silicon 的 MLX 引擎运行 Command A 和 North 系列模型
新增 Cohere2Moe 架构支持
改进 prompt caching,KV 缓存复用更高效
支持 ollama launch 启动多种 AI 助手(如 Hermes Desktop、Codex、Pi 等)
新增 Nemotron-3-Ultra、Gemma 4 系列模型支持
二、前置条件
在开始之前,请确认你的环境满足以下要求:
操作系统
:macOS 11+ / Windows 10+ / Linux(Ubuntu 20.04+ 推荐)
内存
:至少 8GB RAM(运行 7B 模型),16GB+ 更佳
存储
:至少 10GB 可用空间(模型文件较大)
网络
:首次下载模型需要联网
可选
:NVIDIA GPU(CUDA)或 Apple Silicon(M1/M2/M3)可大幅提升推理速度
三、安装步骤
步骤 1:下载安装 Ollama
# macOS / Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# Windows 用户直接下载安装包:
# https://ollama.com/download/windows
复制代码
安装完成后,验证是否成功:
ollama --version
# 应显示类似:ollama version 0.30.10
复制代码
步骤 2:拉取并运行模型
以目前很火的 Qwen 2.5 为例:
# 下载并运行 7B 参数模型
ollama run qwen2.5:7b
# 如果显存充足,可以尝试更大的 14B 模型
ollama run qwen2.5:14b
复制代码
首次运行会自动下载模型,下载完成后即可在终端与模型对话。
步骤 3:使用 OpenAI 兼容 API
Ollama 默认在本地启动 API 服务,可以直接用 OpenAI 格式的客户端调用:
# 确保服务在运行
ollama serve
# API 地址:http://localhost:11434
# 模型列表会自动与已下载的模型同步
复制代码
Python 调用示例:
import requests
response = requests.post('http://localhost:11434/v1/chat/completions', json={
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "你好"}]
})
print(response.json()['choices'][0]['message']['content'])
复制代码
步骤 4:使用 ollama launch 启动 AI 助手(新功能)
v0.30+ 新增了 launch 命令,可以快速启动各种 AI 工具:
# 启动 Hermes 桌面助手
ollama launch hermes-desktop
# 启动 Codex 编程助手
ollama launch codex
# 启动 Pi 助手
ollama launch pi
复制代码
四、验证安装
运行以下命令测试模型是否正常工作:
ollama run qwen2.5:7b
>>> 你好,请介绍一下自己
复制代码
如果能正常回复,说明安装成功!
五、常见问题与解决
Q1:下载模型速度慢怎么办?
A:可以设置镜像源加速,或手动下载 GGUF 文件后通过 Modelfile 导入。
Q2:显存不足怎么运行大模型?
A:使用量化版本,如 qwen2.5:7b-q4_K_M,或开启 CPU 推理(速度较慢)。
Q3:如何同时运行多个模型?
A:Ollama 会自动管理内存,加载新模型时会卸载旧模型。如需并行,可启动多个 Ollama 实例。
Q4:Windows 上安装后命令找不到?
A:确保 Ollama 已添加到系统 PATH,或重启终端后重试。
Q5:如何自定义模型参数(temperature、system prompt 等)?
A:创建 Modelfile:
FROM qwen2.5:7b
PARAMETER temperature 0.7
SYSTEM "你是一个专业的编程助手"
复制代码
然后执行:
ollama create my-model -f Modelfile
ollama run my-model
复制代码
六、进阶推荐
搭配 OpenWebUI
:给 Ollama 加一个漂亮的 Web 界面
搭配 Dify
:构建基于本地模型的 AI 应用和工作流
搭配 Continue.dev
:在 VS Code 中直接调用本地模型辅助编程
总结
Ollama 是目前本地部署大模型最简单的方案之一,特别适合:
想保护数据隐私(本地运行,不上传云端)
网络环境不稳定(下载一次,离线使用)
学习和实验(快速切换不同模型对比效果)
最新 v0.30.10 版本在 Apple Silicon 上的 MLX 优化、prompt caching 改进、以及 launch 命令的支持,让本地 AI 体验更上一层楼。如果你还没试过,现在就是最佳时机!
有任何问题欢迎在楼下留言交流,我会尽力解答。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0