关键要点
- 最快路径:安装Ollama → 运行`ollama run llama3.2` → 在终端开始聊天。网速较快时全程不超过5分钟。
- 8 GB RAM机器:从`llama3.2:3b`(2 GB下载)或`phi4-mini`(2.3 GB)开始。两者均可在任何现代笔记本电脑上运行。
- CPU上预计15-40个令牌/秒,中端GPU或Apple Silicon上预计60-120个令牌/秒。
- 首次响应可能比云API慢——本地模型以速度换取隐私和零成本。
- 初始模型下载后,一切都在离线状态运行。后续会话无需互联网连接。
第一步:安装Ollama
Ollama是运行本地LLM的最快方式。用一条命令或2分钟下载完成安装:
# macOS (Homebrew)
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: download installer from ollama.com/download验证Ollama正在运行
安装后,确认Ollama处于活动状态:
curl http://localhost:11434
# Expected output: Ollama is running第二步:选择您的第一个模型
根据可用RAM选择模型。拿不准时,从`llama3.2:3b`开始——它可在4 GB RAM的任何机器上运行并产生有用输出:
| 您的RAM | 推荐模型 | 下载大小 | 原因 |
|---|---|---|---|
| 4 GB | llama3.2:1b | 约1.3 GB | 最小可用的Llama模型 |
| 8 GB | Llama 3.2 3B | 约2 GB | 初学者最佳质量/大小比 |
| 8-16 GB | Llama 3.1 8B | 约4.7 GB | 强大的通用模型 |
| 16 GB以上 | mistral:7b 或 qwen2.5:7b | 约4-5 GB | 有竞争力的质量,推理速度快 |
第三步:下载模型
使用`ollama pull`下载模型。模型保存到`~/.ollama/models`,只需下载一次:
ollama pull llama3.2
# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b下载过程展示
Ollama在终端显示下载进度。`llama3.2:3b`模型在典型宽带连接上需要2-5分钟。模型以压缩形式存储——2 GB的下载在磁盘上展开为约2.3 GB。
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏ 42 B
verifying sha256 digest
writing manifest
success第四步:运行模型并发送第一个提示词
启动交互式聊天会话:
ollama run llama3.2
# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)您的第一次对话
输入消息并按Enter键。模型逐个令牌流式输出响应:
>>> What are local LLMs?
Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...预期效果:速度、质量与限制
速度因硬件而异。2023款笔记本电脑(无GPU):3B模型预计15-25个令牌/秒,8B模型预计8-15个令牌/秒。Apple M3 Pro:8B模型50-80个令牌/秒。NVIDIA RTX 4070 Ti:8B模型90-130个令牌/秒。
质量:`llama3.2:3b`在复杂任务上明显低于GPT-4o或Claude Opus 4.7。对于摘要、简单问答和代码解释,输出有实用价值。对于多步推理或长篇写作,升级到8B或13B模型。
上下文窗口:`llama3.2:3b`在Ollama中默认支持128K令牌。实际上,单次对话超过约16K令牌后质量会下降。
首次响应延迟:`ollama run`后的首次响应包含模型加载时间(5-30秒)。同一会话中的后续响应更快。
如何在终端之外使用本地LLM?
Ollama终端聊天适合测试,但大多数实际用例需要更好的界面:
- Open WebUI:Ollama的全功能Web界面。用Docker运行:`docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`。访问http://localhost:3000。
- LM Studio:如果您更喜欢桌面GUI,如何安装LM Studio涵盖完整设置。
- API集成:`localhost:11434`的Ollama API与OpenAI SDK兼容。任何接受OpenAI基础URL的应用程序都可以连接到本地模型。
- VS Code / Cursor:Continue.dev等扩展连接到Ollama,直接在编辑器中提供本地AI编码辅助。
运行第一个本地LLM:地区背景
EU / GDPR:使用Ollama运行本地LLM意味着无提示数据、上下文或输出离开您的机器——GDPR第46条转移机制不适用。
日本(METI):METI AI治理指南要求记录AI推理发生的位置。您的第一个Ollama设置创建了完整且可审计的本地环境。
中国:对于中文工作流,将llama3.2:3b替换为qwen2.5:3b作为第一个模型:`ollama pull qwen2.5:3b`。Qwen2.5处理中文文本的令牌效率比Llama高30-40%,在相同硬件层级上产生更好的结果。
运行第一个本地LLM的常见问题
模型响应非常慢——这正常吗?
在纯CPU硬件上,7B模型8-20个令牌/秒是正常的。每个令牌约0.75个词。10个令牌/秒时,100个词的响应大约需要13秒。要加速推理,使用较小模型(3B而不是8B),如有兼容GPU则启用GPU卸载,或使用Q4_K_M量化级别(最快的常用设置)。
我可以同时运行两个模型吗?
如果有足够的RAM,Ollama可以同时保持多个模型加载。默认情况下,Ollama在5分钟不活动后卸载模型。可通过OLLAMA_KEEP_ALIVE环境变量更改。同时运行两个7B模型需要约16 GB RAM。
如何停止Ollama在后台运行?
macOS:点击菜单栏中的llama图标并选择退出。Linux:运行`systemctl stop ollama`。Windows:右键单击系统托盘图标并选择退出。
首次运行本地LLM最简单的方法是什么?
安装Ollama(ollama.com),运行`ollama pull llama3.2:3b`,然后运行`ollama run llama3.2:3b`。就这样。三条命令,2-5分钟,您就在机器上拥有了一个可用的AI模型,初始下载后无需互联网。
如何知道本地LLM是否正常工作?
在终端运行`ollama ps`。如果模型在运行,它会在列表中显示其名称、大小和内存使用情况。发送一个简单提示词如"2+2等于几?"——如果回答"4",模型工作正常。
运行本地LLM需要GPU吗?
不需要。本地LLM在CPU上运行。GPU使推理速度快5-10倍,但对于学习和许多实际用例,纯CPU也完全可以。搭载Apple M1/M2、AMD Ryzen或英特尔第12代CPU的现代笔记本电脑可以以合理速度(10-30个令牌/秒)运行3B-7B模型。
本地LLM占用多少磁盘空间?
`llama3.2:1b`为1.3 GB,`llama3.2:3b`为2 GB,`llama3.1:8b`为4.7 GB。这些是Ollama存储的压缩大小。
没有互联网连接可以使用本地LLM吗?
可以,完全可以。用Ollama下载一次模型(需要互联网),然后永久在本地运行,完全不需要互联网。适合私人网络、飞机上或完全离线环境。
本地LLM与ChatGPT有何不同?
ChatGPT在Anthropic的服务器上运行。本地LLM在您的机器上运行。本地 = 零数据离开设备,完全隐私,无API费用。ChatGPT = 复杂任务质量更高,需要互联网和付费订阅。
Ollama中最值得尝试的第一个模型是什么?
`ollama pull llama3.2:3b`——2 GB,在任何现代笔记本电脑上运行,产生有竞争力的答案,是Ollama推荐的起点。
第一次运行后的下一步
现在您有了一个可用的本地LLM,探索它能做什么。要了解哪些模型最适合您的硬件,请参阅初学者最佳本地LLM模型。有关笔记本电脑专用性能技巧,请参阅如何在笔记本电脑上运行本地LLM。
参考资料
- **Ollama模型库** -- 可下载模型及其规格的官方列表
- **Ollama GitHub仓库** -- 开源代码、文档和问题跟踪
- **Meta Llama 3.2模型卡** -- 官方规格、训练数据和性能基准
第一次运行后的常见错误
- 混淆令牌数和速度——7B模型以20个令牌/秒生成100个令牌需要5秒,不是即时的。
- 在系统忙于其他任务时运行推理,显著降低有效令牌/秒。
- 不检查上下文窗口限制——大多数初学者模型支持2K-8K令牌,而不是前沿模型的100K+。
- 期望首次运行即时响应——首次响应包含模型加载时间(5-30秒)。同一会话中的后续响应快2-5倍。
- 使用错误的模型标签——`llama3.1:8b-text`是基础文本补全模式,会无限循环/重复。聊天请使用`-instruct`标签如`llama3.1:8b-instruct`。