Ollama 是一个轻量级推理引擎，使用单一命令在本地运行大型语言模型。安装 2 分钟后，`ollama pull llama3.2:3b` 下载 2 GB 模型，`ollama run llama3.2` 打开聊天界面。Ollama 将模型管理、llama.cpp 推理后端和 OpenAI 兼容的 REST API 整合到 `localhost:11434` 的单一应用程序中，无需 Python 环境、配置文件和 GPU。截至 2026 年 4 月，Ollama 支持 200 多个模型，包括 Meta Llama 3.2、Qwen2.5、Mistral 和 DeepSeek，并将其 API 公开给任何 OpenAI SDK，无需代码修改。

关键要点

macOS：从 ollama.com 下载 .dmg，或运行 `brew install ollama` -- 然后 `ollama run llama3.2` 开始聊天。
Windows：从 ollama.com/download 下载安装程序。Ollama 作为系统托盘的后台服务运行。
Linux：一个 curl 命令安装一切 -- `curl -fsSL https://ollama.com/install.sh | sh`
最低要求：3B 模型需要 4 GB RAM，7B 模型需要 8 GB RAM。不需要 GPU 即可开始。
Ollama 在 `http://localhost:11434` 公开 OpenAI 兼容的 REST API -- 任何 OpenAI SDK 应用都可以无代码修改地使用它。

安装前：本地LLM是否适合您的用例？

Ollama安装需要5分钟，但如果遇到GPU检测问题、驱动程序不匹配或RAM限制，第一个模型正常运行可能需要20～40分钟。

如果您不确定本地推理是否是正确的选择，**先比较本地和云的完整权衡分析** — 您可能会发现使用云API开始更聪明（5分钟准备就绪，无需故障排除）。许多用户在安装后发现这一点；现在决定更好。

对于致力于本地的用户，请继续下面。对于首先评估云的用户，查看完整比较。

什么是 Ollama，为什么使用它？

一句话来说，Ollama 是一个工具，用于在计算机上下载和本地运行开源语言模型（如 Mistral 或 Llama 2），只需一个命令。

Ollama 是一个开源推理引擎，在本地运行大型语言模型。 它将模型管理、llama.cpp 推理后端和 OpenAI 兼容的 REST API 整合到一个轻量级应用程序中。无需 Python、无需 conda 环境、无需 CUDA 设置。

Ollama 维护一个精选的模型库（ollama.com/library），提供 Meta Llama 3.1、Microsoft Phi-3、Google Gemma 2、Mistral、Qwen2.5 等 100 多个模型的一键下载。模型下载一次并缓存在磁盘上 -- 后续运行在 5 秒内启动。

有关 Ollama 的替代品，请参阅 Local LLM 一键安装程序。要比较 Ollama 和 LM Studio，请参阅如何安装 LM Studio。

如何在 macOS 上安装 Ollama？

一句话来说，Ollama 在 macOS 上作为后台服务运行 -- 安装和启动后，本地 API 在 `http://localhost:11434` 监听模型请求。

有两种方法。安装程序下载更快；如果使用 brew 管理软件，Homebrew 更好。

1
访问 ollama.com/download 并点击"macOS 下载"。
2
打开下载的 Ollama.dmg 文件并将 Ollama 拖到应用程序文件夹。
3
从应用程序启动 Ollama。菜单栏中出现 llama 图标 -- Ollama 现在作为后台服务运行。
4
打开终端并运行第一个模型：`ollama run llama3.2`
5
模型被下载（llama3.2:3b 约 2 GB）和聊天提示出现。输入消息并按 Enter。

如何使用 Homebrew 在 macOS 上安装 Ollama？

bash

brew install ollama

# 启动 Ollama 服务
ollama serve &

# 拉取并运行模型
ollama run llama3.2

如何在 Windows 上安装 Ollama？

1
访问 ollama.com/download 并点击"Windows 下载"。
2
运行下载的 OllamaSetup.exe 安装程序。Ollama 安装到 %LOCALAPPDATA%\Programs\Ollama。
3
Ollama 自动启动并显示为系统托盘图标。
4
打开 PowerShell 或命令提示符并运行：`ollama run llama3.2`
5
模型在首次运行时下载。后续运行使用缓存的模型。

如何在 Windows 上启用 GPU 支持？

Windows 上的 Ollama 自动检测并使用 NVIDIA GPU（CUDA 11.3+）和 AMD GPU（ROCm 6+）。如果有 NVIDIA RTX 卡，Ollama 将自动将模型层卸载到 VRAM -- 无需手动配置。要验证 GPU 是否被使用，运行 `ollama run llama3.2` 并检查任务管理器 → GPU 的活动。

如何在 Linux 上安装 Ollama？

一个命令在任何 Linux 发行版上安装 Ollama：

bash

curl -fsSL https://ollama.com/install.sh | sh

如何在 Linux 上以 systemd 服务运行 Ollama？

安装脚本自动将 Ollama 注册为 systemd 服务。要管理它：

bash

# 检查服务状态
systemctl status ollama

# 启动 / 停止 / 重启
systemctl start ollama
systemctl stop ollama
systemctl restart ollama

# 查看日志
journalctl -u ollama -f

如何在 Ollama 中下载并运行第一个模型？

Ollama 安装后，运行此命令下载并启动模型：

bash

# 拉取模型（保存到 ~/.ollama/models）
ollama pull llama3.2

# 以交互方式运行
ollama run llama3.2

# 或在一步中拉取并运行
ollama run llama3.2

应该从哪个模型开始？

对于初次运行，这三个模型涵盖不同的硬件配置：

模型	下载大小	所需 RAM	最适合
Llama 3.2 3B	~2 GB	4 GB	初次测试 -- 任何机器
Llama 3.1 8B	~4.7 GB	8 GB	大多数笔记本电脑的一般使用
phi4-mini	~2.3 GB	4 GB	快速响应，低 RAM

如何验证 Ollama 正常工作？

直接测试 REST API 以确认 Ollama 正在运行并可访问：

bash

# 检查 Ollama 是否运行
curl http://localhost:11434
# 预期："Ollama is running"

# 列出下载的模型
ollama list

# 通过 API 发送提示（OpenAI 兼容）
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "2+2 是多少？",
  "stream": false
}'

最有用的 Ollama 命令是什么？

命令	功能
ollama list	显示所有下载的模型及其大小
ollama pull <model>	下载模型而不运行它
ollama rm <model>	从磁盘删除模型
ollama ps	显示当前在内存中加载的模型
ollama show <model>	显示模型详细信息（参数、模板、许可证）
ollama serve	手动启动 Ollama 服务器（如果不作为服务运行）

如何解决 Ollama 安装中的常见问题？

Ollama 说"could not connect to ollama app, is it running?"（无法连接到 ollama 应用程序，是否正在运行？）

Ollama 不作为后台服务运行。在 macOS 上：从应用程序打开 Ollama 应用程序。在 Linux 上：在终端中运行 `systemctl start ollama` 或 `ollama serve`。在 Windows 上：从开始菜单启动 Ollama。

模型下载非常缓慢或卡住

模型下载很大（2-47 GB）。如果下载卡住，按 Ctrl+C 并重新运行 `ollama pull <model>` -- Ollama 将恢复部分下载。为了更快的下载，使用有线连接而不是 Wi-Fi。

我收到"error: model requires more system memory"（错误：模型需要更多系统内存）

该模型对于可用 RAM 来说太大。尝试更小的量化：使用 `ollama run llama3.2-instruct-q4_0` 而不是默认的 Q4_K_M。或切换到 `llama3.2:3b` 等较小的模型。请参阅初学者最佳本地 LLM 模型获取 RAM 匹配的建议。

Ollama 正在运行，但我的 GPU 未被使用

在 Windows 上，验证 NVIDIA 驱动程序版本为 452.39 或更高。在 Linux 上，确认安装了 NVIDIA 容器工具包（`nvidia-smi` 应该返回 GPU 信息）。当 VRAM 可用时，Ollama 自动将层卸载到 GPU -- 启动模型后运行 `ollama ps` 以查看 GPU 利用率。

Ollama 模型文件存储在哪里？

模型在 macOS 和 Linux 上存储在 ~/.ollama/models。在 Windows 上，默认路径是 C:\Users\<username>\.ollama\models。在启动服务之前，可以通过设置 OLLAMA_MODELS 环境变量来更改存储位置。

Ollama 安装后应该做什么？

Ollama 运行后，下一步是运行您的第一个本地 LLM以了解提示、上下文长度和本地推理速度的预期。要为您的硬件选择最佳模型，请参阅初学者最佳本地 LLM 模型。如果您更喜欢图形聊天界面而不是终端，如何安装 LM Studio涵盖了桌面应用程序的替代方案。

地区部署和合规背景

中国 / 网信办: 中国网络空间管理局的《生成式人工智能服务管理暂行办法》（2023）对提供给中国用户的 AI 服务进行监管。完全在内部运行的本地 Ollama 部署不在 CAC 提供商定义范围内，大大减少了处理敏感数据的企业用例的合规负担。

欧盟 / GDPR: Ollama 在本地运行意味着个人数据永远不会离开组织的基础设施。GDPR 第 5 条（数据最小化）默认满足，因为推理在您的机器上进行。德国和法国数据保护机构推荐本地 LLM 部署以处理员工或客户数据。将 Ollama 绑定到 `localhost`（默认值）确保无外部网络访问。

日本 / METI: 日本 METI AI 治理指南要求记录 AI 推理发生的地点。组织可以在本地部署 Ollama 以遵守数据驻留规则，特别是在金融服务、医疗保健和制造业中。本地 Ollama 部署被视为与 APPI（个人信息保护法）要求一致的隐私保护方法。

来源

Ollama 官方文档 - 安装指南和 API 文档
Ollama GitHub 存储库 - 源代码、问题和发行说明
Ollama 模型库 - 可用模型的完整列表和下载链接

Ollama 安装中的常见错误是什么？

未检查 Ollama 是否作为后台服务运行即期望 API 响应。在 macOS 上，验证菜单栏中出现 llama 图标。在 Linux 上，运行 `systemctl status ollama`。在 Windows 上，检查系统托盘。
未首先检查内存要求就尝试运行大于可用 RAM 的模型。7B 模型的 Q4 量化需要约 4-5 GB VRAM。始终将模型文件大小乘以 1.2 以估计所需的 RAM。
忽略 GPU 检测 -- Ollama 支持 NVIDIA 和 AMD 但需要最新的驱动程序。在 Windows 上，使用 `nvidia-smi` 验证 NVIDIA 驱动程序版本 452.39+。在 Linux 上，确认安装了 NVIDIA 容器工具包。
将 VRAM（GPU 内存）与系统 RAM 混淆。Ollama 可以在 CPU 上运行，但 GPU 加速速度快 5-10 倍。如果有独立 GPU 但推理缓慢，Ollama 可能因为 GPU 驱动程序丢失或过时而回退到 CPU。
不理解模型下载被缓存。首次运行时，`ollama pull llama3.2` 花费 5-10 分钟下载 2 GB。后续运行使用缓存的模型并在 5 秒内启动。

常见问题

Ollama 是免费的吗？

是的，Ollama 在 MIT 许可证下免费且开源。没有使用限制、不需要 API 密钥，所有推理都在您的机器上本地运行。

Ollama 可以在 Windows 上使用吗？

是的。Ollama 自 2024 年以来有稳定的原生 Windows 安装程序 (2026 年性能改进)。从 ollama.com 下载。在 Windows 上通过 CUDA 支持 NVIDIA GPU，通过 ROCm 支持 AMD GPU。

运行 Ollama 需要多少 RAM？

3B-7B 模型的 Q4 量化至少需要 8 GB RAM。16 GB RAM 可舒适处理 7B 模型和 Q4 下的 13B 模型。建议 32 GB+ RAM 用于仅 CPU 运行的 34B 模型。

如何将 Ollama 更新到最新版本？

在 macOS 上，Ollama 自动更新。在 Windows 上，从 ollama.com 下载并运行最新安装程序。在 Linux 上，重新运行安装脚本：curl -fsSL https://ollama.com/install.sh | sh

我可以在不修改代码的情况下通过 OpenAI SDK 使用 Ollama 吗？

是的。在 OpenAI SDK 中将 base_url 设置为 http://localhost:11434/v1 并传递任何字符串作为 API 密钥。Ollama 的 REST API 完全与 OpenAI 兼容，因此为 GPT 或 Claude 编写的任何应用程序都可以使用您的本地模型。

为什么我的 Ollama 推理很慢（5 tokens/秒以下）？

该模型可能在 CPU 而非 GPU 上运行。使用 ollama ps 验证模型已加载。如果 GPU 利用率为 0%，检查 GPU 驱动程序是否已安装且最新。在 NVIDIA 上：nvidia-smi 应显示您的 GPU。在 AMD 上：rocm-smi。在 Mac 上：Apple Silicon 上自动使用 Metal GPU 加速。

Ollama 可以同时运行多个模型吗？

Ollama 每个进程一次只能运行一个模型。但是，您可以在不同端口上运行多个 Ollama 实例（例如 OLLAMA_HOST=localhost:11434 和 OLLAMA_HOST=localhost:11435）以并行提供多个模型。这需要更多 RAM。

ollama pull 和 ollama run 之间有什么区别？

ollama pull 从 Ollama 库下载模型而不将其加载到内存。ollama run 下载模型（如果未缓存）并立即启动聊天会话。要通过 API 使用模型而不使用聊天界面，首先 pull，然后查询 API。

使用 Ollama 的本地 LLM 符合数据合规要求吗？

不是自动的。本地 LLM 在本地处理数据，但合规性需要另外：磁盘加密、访问控制、处理记录和数据处理协议。本地 Ollama 处理是重要一步，但不是完整的合规证明。请咨询您的数据保护官员（DPO）以获得合规指导。

我可以在中国企业中以生产方式使用 Ollama 吗？

可以。许多中国企业在本地使用 Ollama 进行内部文档处理、代码审查和数据分析。重要：将 Ollama 绑定到 localhost（默认值），为敏感数据启用磁盘加密，并验证您的合规要求。通过这些措施，Ollama 是在组织内部使用 AI 的经济高效方式，无需云依赖。

如何安装 Ollama：macOS、Windows 和 Linux 完整设置指南

安装前：本地LLM是否适合您的用例？

什么是 Ollama，为什么使用它？

如何在 macOS 上安装 Ollama？

如何使用 Homebrew 在 macOS 上安装 Ollama？

如何在 Windows 上安装 Ollama？

如何在 Windows 上启用 GPU 支持？

如何在 Linux 上安装 Ollama？

如何在 Linux 上以 systemd 服务运行 Ollama？

如何在 Ollama 中下载并运行第一个模型？

应该从哪个模型开始？

如何验证 Ollama 正常工作？

最有用的 Ollama 命令是什么？

如何解决 Ollama 安装中的常见问题？

Ollama 说"could not connect to ollama app, is it running?"（无法连接到 ollama 应用程序，是否正在运行？）

模型下载非常缓慢或卡住

我收到"error: model requires more system memory"（错误：模型需要更多系统内存）

Ollama 正在运行，但我的 GPU 未被使用

Ollama 模型文件存储在哪里？

Ollama 安装后应该做什么？

地区部署和合规背景

来源

Ollama 安装中的常见错误是什么？

常见问题

Ollama 是免费的吗？

Ollama 可以在 Windows 上使用吗？

运行 Ollama 需要多少 RAM？

如何将 Ollama 更新到最新版本？

我可以在不修改代码的情况下通过 OpenAI SDK 使用 Ollama 吗？

为什么我的 Ollama 推理很慢（5 tokens/秒以下）？

Ollama 可以同时运行多个模型吗？

ollama pull 和 ollama run 之间有什么区别？

使用 Ollama 的本地 LLM 符合数据合规要求吗？

我可以在中国企业中以生产方式使用 Ollama 吗？

A Note on Third-Party Facts

如何安装 Ollama：macOS、Windows 和 Linux 完整设置指南

安装前：本地LLM是否适合您的用例？

什么是 Ollama，为什么使用它？

如何在 macOS 上安装 Ollama？

如何使用 Homebrew 在 macOS 上安装 Ollama？

如何在 Windows 上安装 Ollama？

如何在 Windows 上启用 GPU 支持？

如何在 Linux 上安装 Ollama？

如何在 Linux 上以 systemd 服务运行 Ollama？

如何在 Ollama 中下载并运行第一个模型？

应该从哪个模型开始？

如何验证 Ollama 正常工作？

最有用的 Ollama 命令是什么？

如何解决 Ollama 安装中的常见问题？

Ollama 说"could not connect to ollama app, is it running?"（无法连接到 ollama 应用程序，是否正在运行？）

模型下载非常缓慢或卡住

我收到"error: model requires more system memory"（错误：模型需要更多系统内存）

Ollama 正在运行，但我的 GPU 未被使用

Ollama 模型文件存储在哪里？

Ollama 安装后应该做什么？

地区部署和合规背景

来源

Ollama 安装中的常见错误是什么？

推荐阅读

常见问题

Ollama 是免费的吗？

Ollama 可以在 Windows 上使用吗？

运行 Ollama 需要多少 RAM？

如何将 Ollama 更新到最新版本？

我可以在不修改代码的情况下通过 OpenAI SDK 使用 Ollama 吗？

为什么我的 Ollama 推理很慢（5 tokens/秒以下）？

Ollama 可以同时运行多个模型吗？

ollama pull 和 ollama run 之间有什么区别？

使用 Ollama 的本地 LLM 符合数据合规要求吗？

我可以在中国企业中以生产方式使用 Ollama 吗？

A Note on Third-Party Facts