关键要点
- macOS:从 ollama.com 下载 .dmg,或运行 `brew install ollama` -- 然后 `ollama run llama3.2` 开始聊天。
- Windows:从 ollama.com/download 下载安装程序。Ollama 作为系统托盘的后台服务运行。
- Linux:一个 curl 命令安装一切 -- `curl -fsSL https://ollama.com/install.sh | sh`
- 最低要求:3B 模型需要 4 GB RAM,7B 模型需要 8 GB RAM。不需要 GPU 即可开始。
- Ollama 在 `http://localhost:11434` 公开 OpenAI 兼容的 REST API -- 任何 OpenAI SDK 应用都可以无代码修改地使用它。
安装前:本地LLM是否适合您的用例?
Ollama安装需要5分钟,但如果遇到GPU检测问题、驱动程序不匹配或RAM限制,第一个模型正常运行可能需要20~40分钟。
如果您不确定本地推理是否是正确的选择,**先比较本地和云的完整权衡分析** — 您可能会发现使用云API开始更聪明(5分钟准备就绪,无需故障排除)。许多用户在安装后发现这一点;现在决定更好。
对于致力于本地的用户,请继续下面。对于首先评估云的用户,查看完整比较。
什么是 Ollama,为什么使用它?
一句话来说,Ollama 是一个工具,用于在计算机上下载和本地运行开源语言模型(如 Mistral 或 Llama 2),只需一个命令。
Ollama 是一个开源推理引擎,在本地运行大型语言模型。 它将模型管理、llama.cpp 推理后端和 OpenAI 兼容的 REST API 整合到一个轻量级应用程序中。无需 Python、无需 conda 环境、无需 CUDA 设置。
Ollama 维护一个精选的模型库(ollama.com/library),提供 Meta Llama 3.1、Microsoft Phi-3、Google Gemma 2、Mistral、Qwen2.5 等 100 多个模型的一键下载。模型下载一次并缓存在磁盘上 -- 后续运行在 5 秒内启动。
有关 Ollama 的替代品,请参阅 Local LLM 一键安装程序。要比较 Ollama 和 LM Studio,请参阅 如何安装 LM Studio。
如何在 macOS 上安装 Ollama?
一句话来说,Ollama 在 macOS 上作为后台服务运行 -- 安装和启动后,本地 API 在 `http://localhost:11434` 监听模型请求。
有两种方法。安装程序下载更快;如果使用 brew 管理软件,Homebrew 更好。
- 1访问 ollama.com/download 并点击"macOS 下载"。
- 2打开下载的 Ollama.dmg 文件并将 Ollama 拖到应用程序文件夹。
- 3从应用程序启动 Ollama。菜单栏中出现 llama 图标 -- Ollama 现在作为后台服务运行。
- 4打开终端并运行第一个模型:`ollama run llama3.2`
- 5模型被下载(llama3.2:3b 约 2 GB)和聊天提示出现。输入消息并按 Enter。
如何使用 Homebrew 在 macOS 上安装 Ollama?
brew install ollama
# 启动 Ollama 服务
ollama serve &
# 拉取并运行模型
ollama run llama3.2如何在 Windows 上安装 Ollama?
- 1访问 ollama.com/download 并点击"Windows 下载"。
- 2运行下载的 OllamaSetup.exe 安装程序。Ollama 安装到 %LOCALAPPDATA%\Programs\Ollama。
- 3Ollama 自动启动并显示为系统托盘图标。
- 4打开 PowerShell 或命令提示符并运行:`ollama run llama3.2`
- 5模型在首次运行时下载。后续运行使用缓存的模型。
如何在 Windows 上启用 GPU 支持?
Windows 上的 Ollama 自动检测并使用 NVIDIA GPU(CUDA 11.3+)和 AMD GPU(ROCm 6+)。如果有 NVIDIA RTX 卡,Ollama 将自动将模型层卸载到 VRAM -- 无需手动配置。要验证 GPU 是否被使用,运行 `ollama run llama3.2` 并检查任务管理器 → GPU 的活动。
如何在 Linux 上安装 Ollama?
一个命令在任何 Linux 发行版上安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh如何在 Linux 上以 systemd 服务运行 Ollama?
安装脚本自动将 Ollama 注册为 systemd 服务。要管理它:
# 检查服务状态
systemctl status ollama
# 启动 / 停止 / 重启
systemctl start ollama
systemctl stop ollama
systemctl restart ollama
# 查看日志
journalctl -u ollama -f如何在 Ollama 中下载并运行第一个模型?
Ollama 安装后,运行此命令下载并启动模型:
# 拉取模型(保存到 ~/.ollama/models)
ollama pull llama3.2
# 以交互方式运行
ollama run llama3.2
# 或在一步中拉取并运行
ollama run llama3.2应该从哪个模型开始?
对于初次运行,这三个模型涵盖不同的硬件配置:
| 模型 | 下载大小 | 所需 RAM | 最适合 |
|---|---|---|---|
| Llama 3.2 3B | ~2 GB | 4 GB | 初次测试 -- 任何机器 |
| Llama 3.1 8B | ~4.7 GB | 8 GB | 大多数笔记本电脑的一般使用 |
| phi4-mini | ~2.3 GB | 4 GB | 快速响应,低 RAM |
如何验证 Ollama 正常工作?
直接测试 REST API 以确认 Ollama 正在运行并可访问:
# 检查 Ollama 是否运行
curl http://localhost:11434
# 预期:"Ollama is running"
# 列出下载的模型
ollama list
# 通过 API 发送提示(OpenAI 兼容)
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "2+2 是多少?",
"stream": false
}'最有用的 Ollama 命令是什么?
| 命令 | 功能 |
|---|---|
| ollama list | 显示所有下载的模型及其大小 |
| ollama pull <model> | 下载模型而不运行它 |
| ollama rm <model> | 从磁盘删除模型 |
| ollama ps | 显示当前在内存中加载的模型 |
| ollama show <model> | 显示模型详细信息(参数、模板、许可证) |
| ollama serve | 手动启动 Ollama 服务器(如果不作为服务运行) |
如何解决 Ollama 安装中的常见问题?
Ollama 说"could not connect to ollama app, is it running?"(无法连接到 ollama 应用程序,是否正在运行?)
Ollama 不作为后台服务运行。在 macOS 上:从应用程序打开 Ollama 应用程序。在 Linux 上:在终端中运行 `systemctl start ollama` 或 `ollama serve`。在 Windows 上:从开始菜单启动 Ollama。
模型下载非常缓慢或卡住
模型下载很大(2-47 GB)。如果下载卡住,按 Ctrl+C 并重新运行 `ollama pull <model>` -- Ollama 将恢复部分下载。为了更快的下载,使用有线连接而不是 Wi-Fi。
我收到"error: model requires more system memory"(错误:模型需要更多系统内存)
该模型对于可用 RAM 来说太大。尝试更小的量化:使用 `ollama run llama3.2-instruct-q4_0` 而不是默认的 Q4_K_M。或切换到 `llama3.2:3b` 等较小的模型。请参阅初学者最佳本地 LLM 模型获取 RAM 匹配的建议。
Ollama 正在运行,但我的 GPU 未被使用
在 Windows 上,验证 NVIDIA 驱动程序版本为 452.39 或更高。在 Linux 上,确认安装了 NVIDIA 容器工具包(`nvidia-smi` 应该返回 GPU 信息)。当 VRAM 可用时,Ollama 自动将层卸载到 GPU -- 启动模型后运行 `ollama ps` 以查看 GPU 利用率。
Ollama 模型文件存储在哪里?
模型在 macOS 和 Linux 上存储在 ~/.ollama/models。在 Windows 上,默认路径是 C:\Users\<username>\.ollama\models。在启动服务之前,可以通过设置 OLLAMA_MODELS 环境变量来更改存储位置。
Ollama 安装后应该做什么?
Ollama 运行后,下一步是运行您的第一个本地 LLM以了解提示、上下文长度和本地推理速度的预期。要为您的硬件选择最佳模型,请参阅初学者最佳本地 LLM 模型。如果您更喜欢图形聊天界面而不是终端,如何安装 LM Studio涵盖了桌面应用程序的替代方案。
地区部署和合规背景
中国 / 网信办: 中国网络空间管理局的《生成式人工智能服务管理暂行办法》(2023)对提供给中国用户的 AI 服务进行监管。完全在内部运行的本地 Ollama 部署不在 CAC 提供商定义范围内,大大减少了处理敏感数据的企业用例的合规负担。
欧盟 / GDPR: Ollama 在本地运行意味着个人数据永远不会离开组织的基础设施。GDPR 第 5 条(数据最小化)默认满足,因为推理在您的机器上进行。德国和法国数据保护机构推荐本地 LLM 部署以处理员工或客户数据。将 Ollama 绑定到 `localhost`(默认值)确保无外部网络访问。
日本 / METI: 日本 METI AI 治理指南要求记录 AI 推理发生的地点。组织可以在本地部署 Ollama 以遵守数据驻留规则,特别是在金融服务、医疗保健和制造业中。本地 Ollama 部署被视为与 APPI(个人信息保护法)要求一致的隐私保护方法。
来源
- Ollama 官方文档 - 安装指南和 API 文档
- Ollama GitHub 存储库 - 源代码、问题和发行说明
- Ollama 模型库 - 可用模型的完整列表和下载链接
Ollama 安装中的常见错误是什么?
- 未检查 Ollama 是否作为后台服务运行即期望 API 响应。在 macOS 上,验证菜单栏中出现 llama 图标。在 Linux 上,运行 `systemctl status ollama`。在 Windows 上,检查系统托盘。
- 未首先检查内存要求就尝试运行大于可用 RAM 的模型。7B 模型的 Q4 量化需要约 4-5 GB VRAM。始终将模型文件大小乘以 1.2 以估计所需的 RAM。
- 忽略 GPU 检测 -- Ollama 支持 NVIDIA 和 AMD 但需要最新的驱动程序。在 Windows 上,使用 `nvidia-smi` 验证 NVIDIA 驱动程序版本 452.39+。在 Linux 上,确认安装了 NVIDIA 容器工具包。
- 将 VRAM(GPU 内存)与系统 RAM 混淆。Ollama 可以在 CPU 上运行,但 GPU 加速速度快 5-10 倍。如果有独立 GPU 但推理缓慢,Ollama 可能因为 GPU 驱动程序丢失或过时而回退到 CPU。
- 不理解模型下载被缓存。首次运行时,`ollama pull llama3.2` 花费 5-10 分钟下载 2 GB。后续运行使用缓存的模型并在 5 秒内启动。
常见问题
Ollama 是免费的吗?
是的,Ollama 在 MIT 许可证下免费且开源。没有使用限制、不需要 API 密钥,所有推理都在您的机器上本地运行。
Ollama 可以在 Windows 上使用吗?
是的。Ollama 自 2024 年以来有稳定的原生 Windows 安装程序 (2026 年性能改进)。从 ollama.com 下载。在 Windows 上通过 CUDA 支持 NVIDIA GPU,通过 ROCm 支持 AMD GPU。
运行 Ollama 需要多少 RAM?
3B-7B 模型的 Q4 量化至少需要 8 GB RAM。16 GB RAM 可舒适处理 7B 模型和 Q4 下的 13B 模型。建议 32 GB+ RAM 用于仅 CPU 运行的 34B 模型。
如何将 Ollama 更新到最新版本?
在 macOS 上,Ollama 自动更新。在 Windows 上,从 ollama.com 下载并运行最新安装程序。在 Linux 上,重新运行安装脚本:curl -fsSL https://ollama.com/install.sh | sh
我可以在不修改代码的情况下通过 OpenAI SDK 使用 Ollama 吗?
是的。在 OpenAI SDK 中将 base_url 设置为 http://localhost:11434/v1 并传递任何字符串作为 API 密钥。Ollama 的 REST API 完全与 OpenAI 兼容,因此为 GPT 或 Claude 编写的任何应用程序都可以使用您的本地模型。
为什么我的 Ollama 推理很慢(5 tokens/秒以下)?
该模型可能在 CPU 而非 GPU 上运行。使用 ollama ps 验证模型已加载。如果 GPU 利用率为 0%,检查 GPU 驱动程序是否已安装且最新。在 NVIDIA 上:nvidia-smi 应显示您的 GPU。在 AMD 上:rocm-smi。在 Mac 上:Apple Silicon 上自动使用 Metal GPU 加速。
Ollama 可以同时运行多个模型吗?
Ollama 每个进程一次只能运行一个模型。但是,您可以在不同端口上运行多个 Ollama 实例(例如 OLLAMA_HOST=localhost:11434 和 OLLAMA_HOST=localhost:11435)以并行提供多个模型。这需要更多 RAM。
ollama pull 和 ollama run 之间有什么区别?
ollama pull 从 Ollama 库下载模型而不将其加载到内存。ollama run 下载模型(如果未缓存)并立即启动聊天会话。要通过 API 使用模型而不使用聊天界面,首先 pull,然后查询 API。
使用 Ollama 的本地 LLM 符合数据合规要求吗?
不是自动的。本地 LLM 在本地处理数据,但合规性需要另外:磁盘加密、访问控制、处理记录和数据处理协议。本地 Ollama 处理是重要一步,但不是完整的合规证明。请咨询您的数据保护官员(DPO)以获得合规指导。
我可以在中国企业中以生产方式使用 Ollama 吗?
可以。许多中国企业在本地使用 Ollama 进行内部文档处理、代码审查和数据分析。重要:将 Ollama 绑定到 localhost(默认值),为敏感数据启用磁盘加密,并验证您的合规要求。通过这些措施,Ollama 是在组织内部使用 AI 的经济高效方式,无需云依赖。