Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/Ollama 命令指南:每个命令详解 (2026)
Tools & Interfaces

Ollama 命令指南:每个命令详解 (2026)

·阅读约 11 分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

Ollama 是命令行工具,掌握其命令可以大幅提高工作效率。本指南涵盖基本命令:`ollama pull`、`ollama run`、`ollama list`、`ollama rm`、`ollama serve`,以及量化和自定义 Modelfiles 等高级选项。

Ollama 是命令行工具,掌握其命令可以大幅提高工作效率。本指南涵盖基本命令:`ollama pull`、`ollama run`、`ollama list`、`ollama rm`、`ollama serve`,以及量化和自定义 Modelfiles 等高级选项。截至 2026 年 4 月,这些命令涵盖 95% 的实际应用场景。

关键要点

  • `ollama pull <model>` -- 下载模型(例如 `ollama pull llama3.2:3b`)。
  • `ollama run <model>` -- 与模型开始聊天。
  • `ollama list` -- 显示所有已下载模型及其大小。
  • `ollama rm <model>` -- 删除已下载模型。
  • `ollama serve` -- 启动 Ollama API 服务器(Mac/Windows 自动运行)。
  • `ollama create <name> -f <modelfile>` -- 从 Modelfile 构建自定义模型。
  • 截至 2026 年 4 月,这些命令稳定且涵盖所有常见用例。

哪些是 Ollama 的基本命令?

  • `ollama list` -- 显示已下载模型、磁盘使用情况和修改日期。
  • `ollama pull <model>` -- 按名称下载模型(例如 `ollama pull mistral`)。
  • `ollama run <model>` -- 启动模型的聊天会话。
  • `ollama rm <model>` -- 删除模型并释放磁盘空间。
  • `ollama serve` -- 启动 REST API 服务器(通常自动运行)。
  • `ollama help` -- 显示所有可用命令。

如何在 Ollama 中管理模型?

Ollama 中的模型管理完全基于命令行:

bash
# 列出所有已下载模型
ollama list

# 从 Ollama 库下载模型
ollama pull llama3.2:3b       # 7B 版本(~2.5 GB)
ollama pull llama3.2:3b-fp16  # 完全精度(~6.5 GB)

# 下载特定量化版本
ollama pull qwen2.5:7b-q4   # 4 位量化
ollama pull qwen2.5:7b-q8   # 8 位量化

# 查看磁盘使用情况
du -sh ~/.ollama/models

# 删除模型
ollama rm llama3.2:3b

# 从自定义注册表拉取(高级)
ollama pull localhost:5000/custom-model

如何运行和服务模型?

有两种方式使用 Ollama:

bash
# 1. 交互式聊天(CLI)
ollama run llama3.2:3b
# 现在输入提示并按 Enter

# 2. 启动 API 服务器(在后台运行)
ollama serve
# API 在 http://localhost:11434/v1 监听

# 3. 从另一个终端通过 API 使用模型
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

如何使用 Modelfiles 创建自定义模型?

Modelfile 是配置文件(类似 Dockerfile),通过从基础模型开始并添加系统提示、参数和权重来定义自定义模型。

bash
# 创建名为 Modelfile 的文件
FROM llama3.2:3b

# 添加系统提示
SYSTEM """
You are a helpful expert in machine learning.
Always explain complex concepts in simple terms.
"""

# 调整参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# 构建自定义模型
ollama create ml-expert -f Modelfile

# 使用它
ollama run ml-expert

Ollama 支持哪些量化选项?

量化通过使用更低精度数字来减少模型大小和 VRAM。 Ollama 支持 GGUF 格式的多种量化:

量化大小(7B)VRAM质量速度
FP16(完全精度)14 GB16 GB最佳最慢
Q8_0(8 位)7 GB8 GB优秀
Q6_K(6 位)5.5 GB6 GB很好
Q5_K_M(5 位)5 GB5.5 GB良好非常快
Q4_K_M(4 位)4.7 GB5 GB良好非常快
Q3_K_M(3 位)3.3 GB4 GB可接受最快

如何使用 Ollama 生成嵌入向量?

嵌入向量是文本的数值表示,用于 RAG(检索增强生成)和语义搜索。

bash
# 拉取嵌入向量模型
ollama pull nomic-embed-text  # 英文最佳,137M 参数

# 生成嵌入向量
curl http://localhost:11434/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nomic-embed-text",
    "input": "The quick brown fox jumps"
  }'

# 响应包含 768 维向量的嵌入向量

哪些环境变量控制 Ollama?

关键环境变量:

  • `OLLAMA_HOST` -- 监听地址(默认:127.0.0.1:11434)。设置为 `0.0.0.0:11434` 允许网络访问。
  • `OLLAMA_MODELS` -- 模型存储位置(默认:`~/.ollama/models`)。
  • `OLLAMA_DEBUG` -- 设置为 `1` 以获得详细日志。
  • `OLLAMA_GPU` -- 使用的 GPU(默认:自动检测)。设置为 `cuda` 或 `rocm`。
  • `OLLAMA_KEEP_ALIVE` -- 模型在内存中保留多长时间(默认:5 分钟)。

Ollama 命令的常见错误

  • 忘记模型标签。 `ollama pull llama3.2` 拉取最大版本;`ollama pull llama3.2:3b` 拉取 3B 版本。
  • 不知道 `ollama serve` 自动运行。 在 Mac 和 Windows 上,启动应用时 Ollama 自动启动 API。在 Linux 上,可能需要手动启动。
  • 拉取错误的量化。 始终指定确切的模型标签(例如 `qwen2.5:7b-q4`)来控制 VRAM 使用。
  • 期望 Ollama 在拉取后离线工作。 Ollama 本身离线工作,但模型必须在连接网络时拉取。

关于 Ollama 命令的常见问题

Ollama 模型存储在哪里?

默认:macOS/Linux 上 `~/.ollama/models` 或 Windows 上 `%USERPROFILE%\.ollama\models`。设置 `OLLAMA_MODELS` 更改位置。

能在计算机间移动模型吗?

可以。将 `~/.ollama/models` 中的模型文件复制到另一台计算机的 `~/.ollama/models`,然后 `ollama list` 将识别它们。

如何查看活跃模型的内存使用?

使用 `ollama ps` 列出当前加载的模型。模型在默认 5 分钟无活动后卸载。

怎样更新 Ollama 模型?

重新运行 `ollama pull <model>`。如有新版本,Ollama 将更新。无需手动删除旧版本。

如何更改默认聊天提示?

使用带 SYSTEM 命令的 Modelfile。创建自定义提示的 Modelfile,然后 `ollama create <name> -f Modelfile`。

能共享 Ollama 模型吗?

可以。将自定义模型推送到注册表:`ollama push <registry>/<model>`。其他人可通过 `ollama pull` 获取。

参考资源

  • Ollama 官方文档 -- ollama.com/docs
  • GGUF 格式规范 -- ggml-org.github.io/ggml/resources
  • Ollama Modelfile 规范 -- ollama.com/docs/modelfile

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM