使用Ollama运行您的第一个本地LLM只需不到10分钟。安装Ollama，运行一个命令加载模型，然后在您的终端中开始聊天----无需API密钥、账户，初始下载后也无需互联网连接。截至2026年4月，最快的初学者模型是Llama 3.2 3B，在现代笔记本电脑CPU上可达25-45个令牌/秒。

关键要点

最快路径：安装Ollama → 运行`ollama run llama3.2` → 在终端开始聊天。网速较快时全程不超过5分钟。
8 GB RAM机器：从`llama3.2:3b`（2 GB下载）或`phi4-mini`（2.3 GB）开始。两者均可在任何现代笔记本电脑上运行。
CPU上预计15-40个令牌/秒，中端GPU或Apple Silicon上预计60-120个令牌/秒。
首次响应可能比云API慢——本地模型以速度换取隐私和零成本。
初始模型下载后，一切都在离线状态运行。后续会话无需互联网连接。

第一步：安装Ollama

Ollama是运行本地LLM的最快方式。用一条命令或2分钟下载完成安装：

bash

# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com/download

验证Ollama正在运行

安装后，确认Ollama处于活动状态：

bash

curl http://localhost:11434
# Expected output: Ollama is running

第二步：选择您的第一个模型

根据可用RAM选择模型。拿不准时，从`llama3.2:3b`开始——它可在4 GB RAM的任何机器上运行并产生有用输出：

您的RAM	推荐模型	下载大小	原因
4 GB	llama3.2:1b	约1.3 GB	最小可用的Llama模型
8 GB	Llama 3.2 3B	约2 GB	初学者最佳质量/大小比
8-16 GB	Llama 3.1 8B	约4.7 GB	强大的通用模型
16 GB以上	mistral:7b 或 qwen2.5:7b	约4-5 GB	有竞争力的质量，推理速度快

第三步：下载模型

使用`ollama pull`下载模型。模型保存到`~/.ollama/models`，只需下载一次：

bash

ollama pull llama3.2

# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b

下载过程展示

Ollama在终端显示下载进度。`llama3.2:3b`模型在典型宽带连接上需要2-5分钟。模型以压缩形式存储——2 GB的下载在磁盘上展开为约2.3 GB。

text

pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏   42 B
verifying sha256 digest
writing manifest
success

第四步：运行模型并发送第一个提示词

启动交互式聊天会话：

bash

ollama run llama3.2

# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)

您的第一次对话

输入消息并按Enter键。模型逐个令牌流式输出响应：

text

>>> What are local LLMs?

Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...

预期效果：速度、质量与限制

速度因硬件而异。2023款笔记本电脑（无GPU）：3B模型预计15-25个令牌/秒，8B模型预计8-15个令牌/秒。Apple M3 Pro：8B模型50-80个令牌/秒。NVIDIA RTX 4070 Ti：8B模型90-130个令牌/秒。

质量：`llama3.2:3b`在复杂任务上明显低于GPT-4o或Claude Opus 4.7。对于摘要、简单问答和代码解释，输出有实用价值。对于多步推理或长篇写作，升级到8B或13B模型。

上下文窗口：`llama3.2:3b`在Ollama中默认支持128K令牌。实际上，单次对话超过约16K令牌后质量会下降。

首次响应延迟：`ollama run`后的首次响应包含模型加载时间（5-30秒）。同一会话中的后续响应更快。

如何在终端之外使用本地LLM？

Ollama终端聊天适合测试，但大多数实际用例需要更好的界面：

Open WebUI：Ollama的全功能Web界面。用Docker运行：`docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`。访问http://localhost:3000。
LM Studio：如果您更喜欢桌面GUI，如何安装LM Studio涵盖完整设置。
API集成：`localhost:11434`的Ollama API与OpenAI SDK兼容。任何接受OpenAI基础URL的应用程序都可以连接到本地模型。
VS Code / Cursor：Continue.dev等扩展连接到Ollama，直接在编辑器中提供本地AI编码辅助。

运行第一个本地LLM：地区背景

EU / GDPR：使用Ollama运行本地LLM意味着无提示数据、上下文或输出离开您的机器——GDPR第46条转移机制不适用。

日本（METI）：METI AI治理指南要求记录AI推理发生的位置。您的第一个Ollama设置创建了完整且可审计的本地环境。

中国：对于中文工作流，将llama3.2:3b替换为qwen2.5:3b作为第一个模型：`ollama pull qwen2.5:3b`。Qwen2.5处理中文文本的令牌效率比Llama高30-40%，在相同硬件层级上产生更好的结果。

运行第一个本地LLM的常见问题

模型响应非常慢——这正常吗？

在纯CPU硬件上，7B模型8-20个令牌/秒是正常的。每个令牌约0.75个词。10个令牌/秒时，100个词的响应大约需要13秒。要加速推理，使用较小模型（3B而不是8B），如有兼容GPU则启用GPU卸载，或使用Q4_K_M量化级别（最快的常用设置）。

我可以同时运行两个模型吗？

如果有足够的RAM，Ollama可以同时保持多个模型加载。默认情况下，Ollama在5分钟不活动后卸载模型。可通过OLLAMA_KEEP_ALIVE环境变量更改。同时运行两个7B模型需要约16 GB RAM。

如何停止Ollama在后台运行？

macOS：点击菜单栏中的llama图标并选择退出。Linux：运行`systemctl stop ollama`。Windows：右键单击系统托盘图标并选择退出。

首次运行本地LLM最简单的方法是什么？

安装Ollama（ollama.com），运行`ollama pull llama3.2:3b`，然后运行`ollama run llama3.2:3b`。就这样。三条命令，2-5分钟，您就在机器上拥有了一个可用的AI模型，初始下载后无需互联网。

如何知道本地LLM是否正常工作？

在终端运行`ollama ps`。如果模型在运行，它会在列表中显示其名称、大小和内存使用情况。发送一个简单提示词如"2+2等于几？"——如果回答"4"，模型工作正常。

运行本地LLM需要GPU吗？

不需要。本地LLM在CPU上运行。GPU使推理速度快5-10倍，但对于学习和许多实际用例，纯CPU也完全可以。搭载Apple M1/M2、AMD Ryzen或英特尔第12代CPU的现代笔记本电脑可以以合理速度（10-30个令牌/秒）运行3B-7B模型。

本地LLM占用多少磁盘空间？

`llama3.2:1b`为1.3 GB，`llama3.2:3b`为2 GB，`llama3.1:8b`为4.7 GB。这些是Ollama存储的压缩大小。

没有互联网连接可以使用本地LLM吗？

可以，完全可以。用Ollama下载一次模型（需要互联网），然后永久在本地运行，完全不需要互联网。适合私人网络、飞机上或完全离线环境。

本地LLM与ChatGPT有何不同？

ChatGPT在Anthropic的服务器上运行。本地LLM在您的机器上运行。本地 = 零数据离开设备，完全隐私，无API费用。ChatGPT = 复杂任务质量更高，需要互联网和付费订阅。

Ollama中最值得尝试的第一个模型是什么？

`ollama pull llama3.2:3b`——2 GB，在任何现代笔记本电脑上运行，产生有竞争力的答案，是Ollama推荐的起点。

第一次运行后的下一步

现在您有了一个可用的本地LLM，探索它能做什么。要了解哪些模型最适合您的硬件，请参阅初学者最佳本地LLM模型。有关笔记本电脑专用性能技巧，请参阅如何在笔记本电脑上运行本地LLM。

参考资料

**Ollama模型库** -- 可下载模型及其规格的官方列表
**Ollama GitHub仓库** -- 开源代码、文档和问题跟踪
**Meta Llama 3.2模型卡** -- 官方规格、训练数据和性能基准

第一次运行后的常见错误

混淆令牌数和速度——7B模型以20个令牌/秒生成100个令牌需要5秒，不是即时的。
在系统忙于其他任务时运行推理，显著降低有效令牌/秒。
不检查上下文窗口限制——大多数初学者模型支持2K-8K令牌，而不是前沿模型的100K+。
期望首次运行即时响应——首次响应包含模型加载时间（5-30秒）。同一会话中的后续响应快2-5倍。
使用错误的模型标签——`llama3.1:8b-text`是基础文本补全模式，会无限循环/重复。聊天请使用`-instruct`标签如`llama3.1:8b-instruct`。

运行您的第一个本地LLM：从安装到首个响应仅需10分钟

第一步：安装Ollama

验证Ollama正在运行

第二步：选择您的第一个模型

第三步：下载模型

下载过程展示

第四步：运行模型并发送第一个提示词

您的第一次对话

预期效果：速度、质量与限制

如何在终端之外使用本地LLM？

运行第一个本地LLM：地区背景

运行第一个本地LLM的常见问题

模型响应非常慢——这正常吗？

我可以同时运行两个模型吗？

如何停止Ollama在后台运行？

首次运行本地LLM最简单的方法是什么？

如何知道本地LLM是否正常工作？

运行本地LLM需要GPU吗？

本地LLM占用多少磁盘空间？

没有互联网连接可以使用本地LLM吗？

本地LLM与ChatGPT有何不同？

Ollama中最值得尝试的第一个模型是什么？

第一次运行后的下一步

参考资料

第一次运行后的常见错误

A Note on Third-Party Facts

运行您的第一个本地LLM：从安装到首个响应仅需10分钟

第一步：安装Ollama

验证Ollama正在运行

第二步：选择您的第一个模型

第三步：下载模型

下载过程展示

第四步：运行模型并发送第一个提示词

您的第一次对话

预期效果：速度、质量与限制

如何在终端之外使用本地LLM？

运行第一个本地LLM：地区背景

运行第一个本地LLM的常见问题

模型响应非常慢——这正常吗？

我可以同时运行两个模型吗？

如何停止Ollama在后台运行？

首次运行本地LLM最简单的方法是什么？

如何知道本地LLM是否正常工作？

运行本地LLM需要GPU吗？

本地LLM占用多少磁盘空间？

没有互联网连接可以使用本地LLM吗？

本地LLM与ChatGPT有何不同？

Ollama中最值得尝试的第一个模型是什么？

第一次运行后的下一步

参考资料

第一次运行后的常见错误

相关阅读

A Note on Third-Party Facts