关键要点
- `ollama pull <model>` -- 下载模型(例如 `ollama pull llama3.2:3b`)。
- `ollama run <model>` -- 与模型开始聊天。
- `ollama list` -- 显示所有已下载模型及其大小。
- `ollama rm <model>` -- 删除已下载模型。
- `ollama serve` -- 启动 Ollama API 服务器(Mac/Windows 自动运行)。
- `ollama create <name> -f <modelfile>` -- 从 Modelfile 构建自定义模型。
- 截至 2026 年 4 月,这些命令稳定且涵盖所有常见用例。
哪些是 Ollama 的基本命令?
- `ollama list` -- 显示已下载模型、磁盘使用情况和修改日期。
- `ollama pull <model>` -- 按名称下载模型(例如 `ollama pull mistral`)。
- `ollama run <model>` -- 启动模型的聊天会话。
- `ollama rm <model>` -- 删除模型并释放磁盘空间。
- `ollama serve` -- 启动 REST API 服务器(通常自动运行)。
- `ollama help` -- 显示所有可用命令。
如何在 Ollama 中管理模型?
Ollama 中的模型管理完全基于命令行:
# 列出所有已下载模型
ollama list
# 从 Ollama 库下载模型
ollama pull llama3.2:3b # 7B 版本(~2.5 GB)
ollama pull llama3.2:3b-fp16 # 完全精度(~6.5 GB)
# 下载特定量化版本
ollama pull qwen2.5:7b-q4 # 4 位量化
ollama pull qwen2.5:7b-q8 # 8 位量化
# 查看磁盘使用情况
du -sh ~/.ollama/models
# 删除模型
ollama rm llama3.2:3b
# 从自定义注册表拉取(高级)
ollama pull localhost:5000/custom-model如何运行和服务模型?
有两种方式使用 Ollama:
# 1. 交互式聊天(CLI)
ollama run llama3.2:3b
# 现在输入提示并按 Enter
# 2. 启动 API 服务器(在后台运行)
ollama serve
# API 在 http://localhost:11434/v1 监听
# 3. 从另一个终端通过 API 使用模型
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [{"role": "user", "content": "Hello"}]
}'如何使用 Modelfiles 创建自定义模型?
Modelfile 是配置文件(类似 Dockerfile),通过从基础模型开始并添加系统提示、参数和权重来定义自定义模型。
# 创建名为 Modelfile 的文件
FROM llama3.2:3b
# 添加系统提示
SYSTEM """
You are a helpful expert in machine learning.
Always explain complex concepts in simple terms.
"""
# 调整参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# 构建自定义模型
ollama create ml-expert -f Modelfile
# 使用它
ollama run ml-expertOllama 支持哪些量化选项?
量化通过使用更低精度数字来减少模型大小和 VRAM。 Ollama 支持 GGUF 格式的多种量化:
| 量化 | 大小(7B) | VRAM | 质量 | 速度 |
|---|---|---|---|---|
| FP16(完全精度) | 14 GB | 16 GB | 最佳 | 最慢 |
| Q8_0(8 位) | 7 GB | 8 GB | 优秀 | 快 |
| Q6_K(6 位) | 5.5 GB | 6 GB | 很好 | 快 |
| Q5_K_M(5 位) | 5 GB | 5.5 GB | 良好 | 非常快 |
| Q4_K_M(4 位) | 4.7 GB | 5 GB | 良好 | 非常快 |
| Q3_K_M(3 位) | 3.3 GB | 4 GB | 可接受 | 最快 |
如何使用 Ollama 生成嵌入向量?
嵌入向量是文本的数值表示,用于 RAG(检索增强生成)和语义搜索。
# 拉取嵌入向量模型
ollama pull nomic-embed-text # 英文最佳,137M 参数
# 生成嵌入向量
curl http://localhost:11434/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"model": "nomic-embed-text",
"input": "The quick brown fox jumps"
}'
# 响应包含 768 维向量的嵌入向量哪些环境变量控制 Ollama?
关键环境变量:
- `OLLAMA_HOST` -- 监听地址(默认:127.0.0.1:11434)。设置为 `0.0.0.0:11434` 允许网络访问。
- `OLLAMA_MODELS` -- 模型存储位置(默认:`~/.ollama/models`)。
- `OLLAMA_DEBUG` -- 设置为 `1` 以获得详细日志。
- `OLLAMA_GPU` -- 使用的 GPU(默认:自动检测)。设置为 `cuda` 或 `rocm`。
- `OLLAMA_KEEP_ALIVE` -- 模型在内存中保留多长时间(默认:5 分钟)。
Ollama 命令的常见错误
- 忘记模型标签。 `ollama pull llama3.2` 拉取最大版本;`ollama pull llama3.2:3b` 拉取 3B 版本。
- 不知道 `ollama serve` 自动运行。 在 Mac 和 Windows 上,启动应用时 Ollama 自动启动 API。在 Linux 上,可能需要手动启动。
- 拉取错误的量化。 始终指定确切的模型标签(例如 `qwen2.5:7b-q4`)来控制 VRAM 使用。
- 期望 Ollama 在拉取后离线工作。 Ollama 本身离线工作,但模型必须在连接网络时拉取。
关于 Ollama 命令的常见问题
Ollama 模型存储在哪里?
默认:macOS/Linux 上 `~/.ollama/models` 或 Windows 上 `%USERPROFILE%\.ollama\models`。设置 `OLLAMA_MODELS` 更改位置。
能在计算机间移动模型吗?
可以。将 `~/.ollama/models` 中的模型文件复制到另一台计算机的 `~/.ollama/models`,然后 `ollama list` 将识别它们。
如何查看活跃模型的内存使用?
使用 `ollama ps` 列出当前加载的模型。模型在默认 5 分钟无活动后卸载。
怎样更新 Ollama 模型?
重新运行 `ollama pull <model>`。如有新版本,Ollama 将更新。无需手动删除旧版本。
如何更改默认聊天提示?
使用带 SYSTEM 命令的 Modelfile。创建自定义提示的 Modelfile,然后 `ollama create <name> -f Modelfile`。
能共享 Ollama 模型吗?
可以。将自定义模型推送到注册表:`ollama push <registry>/<model>`。其他人可通过 `ollama pull` 获取。
参考资源
- Ollama 官方文档 -- ollama.com/docs
- GGUF 格式规范 -- ggml-org.github.io/ggml/resources
- Ollama Modelfile 规范 -- ollama.com/docs/modelfile