Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/运行您的第一个本地LLM:从安装到首个响应仅需10分钟
入门

运行您的第一个本地LLM:从安装到首个响应仅需10分钟

·7 min read·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

使用Ollama运行您的第一个本地LLM只需不到10分钟。安装Ollama,运行一个命令加载模型,然后在您的终端中开始聊天----无需API密钥、账户,初始下载后也无需互联网连接。截至2026年4月,最快的初学者模型是Llama 3.2 3B,在现代笔记本电脑CPU上可达25-45个令牌/秒。

4-Step Local LLM PipelineA horizontal flow diagram showing the four steps to run a local LLM: Install Ollama, Pull a Model, Run the Model, and Start Chatting.1. Installollama.com2. Pullllama3.2:3b3. Runollama run4. ChatLocal AI2 min2-5 min<1 secInstant

Position: intro

关键要点

  • 最快路径:安装Ollama → 运行`ollama run llama3.2` → 在终端开始聊天。网速较快时全程不超过5分钟。
  • 8 GB RAM机器:从`llama3.2:3b`(2 GB下载)或`phi4-mini`(2.3 GB)开始。两者均可在任何现代笔记本电脑上运行。
  • CPU上预计15-40个令牌/秒,中端GPU或Apple Silicon上预计60-120个令牌/秒。
  • 首次响应可能比云API慢——本地模型以速度换取隐私和零成本。
  • 初始模型下载后,一切都在离线状态运行。后续会话无需互联网连接。

第一步:安装Ollama

Ollama是运行本地LLM的最快方式。用一条命令或2分钟下载完成安装:

bash
# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com/download

验证Ollama正在运行

安装后,确认Ollama处于活动状态:

bash
curl http://localhost:11434
# Expected output: Ollama is running

第二步:选择您的第一个模型

根据可用RAM选择模型。拿不准时,从`llama3.2:3b`开始——它可在4 GB RAM的任何机器上运行并产生有用输出:

您的RAM推荐模型下载大小原因
4 GBllama3.2:1b约1.3 GB最小可用的Llama模型
8 GBLlama 3.2 3B约2 GB初学者最佳质量/大小比
8-16 GBLlama 3.3 8B约4.7 GB强大的通用模型
16 GB以上mistral:7b 或 qwen2.5:7b约4-5 GB有竞争力的质量,推理速度快

第三步:下载模型

使用`ollama pull`下载模型。模型保存到`~/.ollama/models`,只需下载一次:

bash
ollama pull llama3.2

# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b

下载过程展示

Ollama在终端显示下载进度。`llama3.2:3b`模型在典型宽带连接上需要2-5分钟。模型以压缩形式存储——2 GB的下载在磁盘上展开为约2.3 GB。

text
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏   42 B
verifying sha256 digest
writing manifest
success

第四步:运行模型并发送第一个提示词

启动交互式聊天会话:

bash
ollama run llama3.2

# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)

您的第一次对话

输入消息并按Enter键。模型逐个令牌流式输出响应:

text
>>> What are local LLMs?

Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...

预期效果:速度、质量与限制

速度因硬件而异。2023款笔记本电脑(无GPU):3B模型预计15-25个令牌/秒,8B模型预计8-15个令牌/秒。Apple M3 Pro:8B模型50-80个令牌/秒。NVIDIA RTX 4070 Ti:8B模型90-130个令牌/秒。

质量:`llama3.2:3b`在复杂任务上明显低于GPT-5.5或Claude Opus 4.8。对于摘要、简单问答和代码解释,输出有实用价值。对于多步推理或长篇写作,升级到8B或13B模型。

上下文窗口:`llama3.2:3b`在Ollama中默认支持128K令牌。实际上,单次对话超过约16K令牌后质量会下降。

首次响应延迟:`ollama run`后的首次响应包含模型加载时间(5-30秒)。同一会话中的后续响应更快。

如何在终端之外使用本地LLM?

Ollama终端聊天适合测试,但大多数实际用例需要更好的界面:

  • Open WebUI:Ollama的全功能Web界面。用Docker运行:`docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`。访问http://localhost:3000。
  • LM Studio:如果您更喜欢桌面GUI,如何安装LM Studio涵盖完整设置。
  • API集成:`localhost:11434`的Ollama API与OpenAI SDK兼容。任何接受OpenAI基础URL的应用程序都可以连接到本地模型。
  • VS Code / Cursor:Continue.dev等扩展连接到Ollama,直接在编辑器中提供本地AI编码辅助。

运行第一个本地LLM:地区背景

EU / GDPR:使用Ollama运行本地LLM意味着无提示数据、上下文或输出离开您的机器——GDPR第46条转移机制不适用。

日本(METI):METI AI治理指南要求记录AI推理发生的位置。您的第一个Ollama设置创建了完整且可审计的本地环境。

中国:对于中文工作流,将llama3.2:3b替换为qwen2.5:3b作为第一个模型:`ollama pull qwen2.5:3b`。Qwen3处理中文文本的令牌效率比Llama高30-40%,在相同硬件层级上产生更好的结果。

运行第一个本地LLM的常见问题

模型响应非常慢——这正常吗?

在纯CPU硬件上,7B模型8-20个令牌/秒是正常的。每个令牌约0.75个词。10个令牌/秒时,100个词的响应大约需要13秒。要加速推理,使用较小模型(3B而不是8B),如有兼容GPU则启用GPU卸载,或使用Q4_K_M量化级别(最快的常用设置)。

我可以同时运行两个模型吗?

如果有足够的RAM,Ollama可以同时保持多个模型加载。默认情况下,Ollama在5分钟不活动后卸载模型。可通过OLLAMA_KEEP_ALIVE环境变量更改。同时运行两个7B模型需要约16 GB RAM。

如何停止Ollama在后台运行?

macOS:点击菜单栏中的llama图标并选择退出。Linux:运行`systemctl stop ollama`。Windows:右键单击系统托盘图标并选择退出。

首次运行本地LLM最简单的方法是什么?

安装Ollama(ollama.com),运行`ollama pull llama3.2:3b`,然后运行`ollama run llama3.2:3b`。就这样。三条命令,2-5分钟,您就在机器上拥有了一个可用的AI模型,初始下载后无需互联网。

如何知道本地LLM是否正常工作?

在终端运行`ollama ps`。如果模型在运行,它会在列表中显示其名称、大小和内存使用情况。发送一个简单提示词如"2+2等于几?"——如果回答"4",模型工作正常。

运行本地LLM需要GPU吗?

不需要。本地LLM在CPU上运行。GPU使推理速度快5-10倍,但对于学习和许多实际用例,纯CPU也完全可以。搭载Apple M1/M2、AMD Ryzen或英特尔第12代CPU的现代笔记本电脑可以以合理速度(10-30个令牌/秒)运行3B-7B模型。

本地LLM占用多少磁盘空间?

`llama3.2:1b`为1.3 GB,`llama3.2:3b`为2 GB,`llama3.1:8b`为4.7 GB。这些是Ollama存储的压缩大小。

没有互联网连接可以使用本地LLM吗?

可以,完全可以。用Ollama下载一次模型(需要互联网),然后永久在本地运行,完全不需要互联网。适合私人网络、飞机上或完全离线环境。

本地LLM与ChatGPT有何不同?

ChatGPT在Anthropic的服务器上运行。本地LLM在您的机器上运行。本地 = 零数据离开设备,完全隐私,无API费用。ChatGPT = 复杂任务质量更高,需要互联网和付费订阅。

Ollama中最值得尝试的第一个模型是什么?

`ollama pull llama3.2:3b`——2 GB,在任何现代笔记本电脑上运行,产生有竞争力的答案,是Ollama推荐的起点。

第一次运行后的下一步

现在您有了一个可用的本地LLM,探索它能做什么。要了解哪些模型最适合您的硬件,请参阅初学者最佳本地LLM模型。有关笔记本电脑专用性能技巧,请参阅如何在笔记本电脑上运行本地LLM

参考资料

第一次运行后的常见错误

  • 混淆令牌数和速度——7B模型以20个令牌/秒生成100个令牌需要5秒,不是即时的。
  • 在系统忙于其他任务时运行推理,显著降低有效令牌/秒。
  • 不检查上下文窗口限制——大多数初学者模型支持2K-8K令牌,而不是前沿模型的100K+。
  • 期望首次运行即时响应——首次响应包含模型加载时间(5-30秒)。同一会话中的后续响应快2-5倍。
  • 使用错误的模型标签——`llama3.1:8b-text`是基础文本补全模式,会无限循环/重复。聊天请使用`-instruct`标签如`llama3.1:8b-instruct`。

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM