Ollama 是命令行工具，掌握其命令可以大幅提高工作效率。本指南涵盖基本命令：`ollama pull`、`ollama run`、`ollama list`、`ollama rm`、`ollama serve`，以及量化和自定义 Modelfiles 等高级选项。截至 2026 年 4 月，这些命令涵盖 95% 的实际应用场景。

关键要点

`ollama pull <model>` -- 下载模型（例如 `ollama pull llama3.2:3b`）。
`ollama run <model>` -- 与模型开始聊天。
`ollama list` -- 显示所有已下载模型及其大小。
`ollama rm <model>` -- 删除已下载模型。
`ollama serve` -- 启动 Ollama API 服务器（Mac/Windows 自动运行）。
`ollama create <name> -f <modelfile>` -- 从 Modelfile 构建自定义模型。
截至 2026 年 4 月，这些命令稳定且涵盖所有常见用例。

哪些是 Ollama 的基本命令？

`ollama list` -- 显示已下载模型、磁盘使用情况和修改日期。
`ollama pull <model>` -- 按名称下载模型（例如 `ollama pull mistral`）。
`ollama run <model>` -- 启动模型的聊天会话。
`ollama rm <model>` -- 删除模型并释放磁盘空间。
`ollama serve` -- 启动 REST API 服务器（通常自动运行）。
`ollama help` -- 显示所有可用命令。

如何在 Ollama 中管理模型？

Ollama 中的模型管理完全基于命令行：

bash

# 列出所有已下载模型
ollama list

# 从 Ollama 库下载模型
ollama pull llama3.2:3b       # 7B 版本（~2.5 GB）
ollama pull llama3.2:3b-fp16  # 完全精度（~6.5 GB）

# 下载特定量化版本
ollama pull qwen2.5:7b-q4   # 4 位量化
ollama pull qwen2.5:7b-q8   # 8 位量化

# 查看磁盘使用情况
du -sh ~/.ollama/models

# 删除模型
ollama rm llama3.2:3b

# 从自定义注册表拉取（高级）
ollama pull localhost:5000/custom-model

如何运行和服务模型？

有两种方式使用 Ollama：

bash

# 1. 交互式聊天（CLI）
ollama run llama3.2:3b
# 现在输入提示并按 Enter

# 2. 启动 API 服务器（在后台运行）
ollama serve
# API 在 http://localhost:11434/v1 监听

# 3. 从另一个终端通过 API 使用模型
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

如何使用 Modelfiles 创建自定义模型？

Modelfile 是配置文件（类似 Dockerfile），通过从基础模型开始并添加系统提示、参数和权重来定义自定义模型。

bash

# 创建名为 Modelfile 的文件
FROM llama3.2:3b

# 添加系统提示
SYSTEM """
You are a helpful expert in machine learning.
Always explain complex concepts in simple terms.
"""

# 调整参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# 构建自定义模型
ollama create ml-expert -f Modelfile

# 使用它
ollama run ml-expert

Ollama 支持哪些量化选项？

量化通过使用更低精度数字来减少模型大小和 VRAM。 Ollama 支持 GGUF 格式的多种量化：

量化	大小（7B）	VRAM	质量	速度
FP16（完全精度）	14 GB	16 GB	最佳	最慢
Q8_0（8 位）	7 GB	8 GB	优秀	快
Q6_K（6 位）	5.5 GB	6 GB	很好	快
Q5_K_M（5 位）	5 GB	5.5 GB	良好	非常快
Q4_K_M（4 位）	4.7 GB	5 GB	良好	非常快
Q3_K_M（3 位）	3.3 GB	4 GB	可接受	最快

如何使用 Ollama 生成嵌入向量？

嵌入向量是文本的数值表示，用于 RAG（检索增强生成）和语义搜索。

bash

# 拉取嵌入向量模型
ollama pull nomic-embed-text  # 英文最佳，137M 参数

# 生成嵌入向量
curl http://localhost:11434/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nomic-embed-text",
    "input": "The quick brown fox jumps"
  }'

# 响应包含 768 维向量的嵌入向量

哪些环境变量控制 Ollama？

关键环境变量：

`OLLAMA_HOST` -- 监听地址（默认：127.0.0.1:11434）。设置为 `0.0.0.0:11434` 允许网络访问。
`OLLAMA_MODELS` -- 模型存储位置（默认：`~/.ollama/models`）。
`OLLAMA_DEBUG` -- 设置为 `1` 以获得详细日志。
`OLLAMA_GPU` -- 使用的 GPU（默认：自动检测）。设置为 `cuda` 或 `rocm`。
`OLLAMA_KEEP_ALIVE` -- 模型在内存中保留多长时间（默认：5 分钟）。

Ollama 命令的常见错误

忘记模型标签。 `ollama pull llama3.2` 拉取最大版本；`ollama pull llama3.2:3b` 拉取 3B 版本。
不知道 `ollama serve` 自动运行。 在 Mac 和 Windows 上，启动应用时 Ollama 自动启动 API。在 Linux 上，可能需要手动启动。
拉取错误的量化。 始终指定确切的模型标签（例如 `qwen2.5:7b-q4`）来控制 VRAM 使用。
期望 Ollama 在拉取后离线工作。 Ollama 本身离线工作，但模型必须在连接网络时拉取。

关于 Ollama 命令的常见问题

Ollama 模型存储在哪里？

默认：macOS/Linux 上 `~/.ollama/models` 或 Windows 上 `%USERPROFILE%\.ollama\models`。设置 `OLLAMA_MODELS` 更改位置。

能在计算机间移动模型吗？

可以。将 `~/.ollama/models` 中的模型文件复制到另一台计算机的 `~/.ollama/models`，然后 `ollama list` 将识别它们。

如何查看活跃模型的内存使用？

使用 `ollama ps` 列出当前加载的模型。模型在默认 5 分钟无活动后卸载。

怎样更新 Ollama 模型？

重新运行 `ollama pull <model>`。如有新版本，Ollama 将更新。无需手动删除旧版本。

如何更改默认聊天提示？

使用带 SYSTEM 命令的 Modelfile。创建自定义提示的 Modelfile，然后 `ollama create <name> -f Modelfile`。

能共享 Ollama 模型吗？

可以。将自定义模型推送到注册表：`ollama push <registry>/<model>`。其他人可通过 `ollama pull` 获取。

参考资源

Ollama 官方文档 -- ollama.com/docs
GGUF 格式规范 -- ggml-org.github.io/ggml/resources
Ollama Modelfile 规范 -- ollama.com/docs/modelfile

Ollama 命令指南：每个命令详解 (2026)

哪些是 Ollama 的基本命令？

如何在 Ollama 中管理模型？

如何运行和服务模型？

如何使用 Modelfiles 创建自定义模型？

Ollama 支持哪些量化选项？

如何使用 Ollama 生成嵌入向量？

哪些环境变量控制 Ollama？

Ollama 命令的常见错误

关于 Ollama 命令的常见问题

Ollama 模型存储在哪里？

能在计算机间移动模型吗？

如何查看活跃模型的内存使用？

怎样更新 Ollama 模型？

如何更改默认聊天提示？

能共享 Ollama 模型吗？

参考资源

A Note on Third-Party Facts

Ollama 命令指南：每个命令详解 (2026)

哪些是 Ollama 的基本命令？

如何在 Ollama 中管理模型？

如何运行和服务模型？

如何使用 Modelfiles 创建自定义模型？

Ollama 支持哪些量化选项？

如何使用 Ollama 生成嵌入向量？

哪些环境变量控制 Ollama？

Ollama 命令的常见错误

关于 Ollama 命令的常见问题

Ollama 模型存储在哪里？

能在计算机间移动模型吗？

如何查看活跃模型的内存使用？

怎样更新 Ollama 模型？

如何更改默认聊天提示？

能共享 Ollama 模型吗？

相关阅读

参考资源

A Note on Third-Party Facts