PromptQuorumPromptQuorum
主页/本地LLM/运行您的第一个本地LLM:从安装到首个响应仅需10分钟
入门

运行您的第一个本地LLM:从安装到首个响应仅需10分钟

·7 min read·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

使用Ollama运行您的第一个本地LLM只需不到10分钟。安装Ollama,运行一个命令加载模型,然后在您的终端中开始聊天----无需API密钥、账户,初始下载后也无需互联网连接。截至2026年4月,最快的初学者模型是Llama 3.2 3B,在现代笔记本电脑CPU上可达25-45个令牌/秒。

4-Step Local LLM PipelineA horizontal flow diagram showing the four steps to run a local LLM: Install Ollama, Pull a Model, Run the Model, and Start Chatting.1. Installollama.com2. Pullllama3.2:3b3. Runollama run4. ChatLocal AI2 min2-5 min<1 secInstant

Position: intro

关键要点

  • 最快路径:安装Ollama → 运行`ollama run llama3.2` → 在终端开始聊天。网速较快时全程不超过5分钟。
  • 8 GB RAM机器:从`llama3.2:3b`(2 GB下载)或`phi4-mini`(2.3 GB)开始。两者均可在任何现代笔记本电脑上运行。
  • CPU上预计15-40个令牌/秒,中端GPU或Apple Silicon上预计60-120个令牌/秒。
  • 首次响应可能比云API慢——本地模型以速度换取隐私和零成本。
  • 初始模型下载后,一切都在离线状态运行。后续会话无需互联网连接。

第一步:安装Ollama

Ollama是运行本地LLM的最快方式。用一条命令或2分钟下载完成安装:

bash
# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com/download

验证Ollama正在运行

安装后,确认Ollama处于活动状态:

bash
curl http://localhost:11434
# Expected output: Ollama is running

第二步:选择您的第一个模型

根据可用RAM选择模型。拿不准时,从`llama3.2:3b`开始——它可在4 GB RAM的任何机器上运行并产生有用输出:

您的RAM推荐模型下载大小原因
4 GBllama3.2:1b约1.3 GB最小可用的Llama模型
8 GBLlama 3.2 3B约2 GB初学者最佳质量/大小比
8-16 GBLlama 3.1 8B约4.7 GB强大的通用模型
16 GB以上mistral:7b 或 qwen2.5:7b约4-5 GB有竞争力的质量,推理速度快

第三步:下载模型

使用`ollama pull`下载模型。模型保存到`~/.ollama/models`,只需下载一次:

bash
ollama pull llama3.2

# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b

下载过程展示

Ollama在终端显示下载进度。`llama3.2:3b`模型在典型宽带连接上需要2-5分钟。模型以压缩形式存储——2 GB的下载在磁盘上展开为约2.3 GB。

text
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏   42 B
verifying sha256 digest
writing manifest
success

第四步:运行模型并发送第一个提示词

启动交互式聊天会话:

bash
ollama run llama3.2

# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)

您的第一次对话

输入消息并按Enter键。模型逐个令牌流式输出响应:

text
>>> What are local LLMs?

Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...

预期效果:速度、质量与限制

速度因硬件而异。2023款笔记本电脑(无GPU):3B模型预计15-25个令牌/秒,8B模型预计8-15个令牌/秒。Apple M3 Pro:8B模型50-80个令牌/秒。NVIDIA RTX 4070 Ti:8B模型90-130个令牌/秒。

质量:`llama3.2:3b`在复杂任务上明显低于GPT-4o或Claude Opus 4.7。对于摘要、简单问答和代码解释,输出有实用价值。对于多步推理或长篇写作,升级到8B或13B模型。

上下文窗口:`llama3.2:3b`在Ollama中默认支持128K令牌。实际上,单次对话超过约16K令牌后质量会下降。

首次响应延迟:`ollama run`后的首次响应包含模型加载时间(5-30秒)。同一会话中的后续响应更快。

如何在终端之外使用本地LLM?

Ollama终端聊天适合测试,但大多数实际用例需要更好的界面:

  • Open WebUI:Ollama的全功能Web界面。用Docker运行:`docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`。访问http://localhost:3000。
  • LM Studio:如果您更喜欢桌面GUI,如何安装LM Studio涵盖完整设置。
  • API集成:`localhost:11434`的Ollama API与OpenAI SDK兼容。任何接受OpenAI基础URL的应用程序都可以连接到本地模型。
  • VS Code / Cursor:Continue.dev等扩展连接到Ollama,直接在编辑器中提供本地AI编码辅助。

运行第一个本地LLM:地区背景

EU / GDPR:使用Ollama运行本地LLM意味着无提示数据、上下文或输出离开您的机器——GDPR第46条转移机制不适用。

日本(METI):METI AI治理指南要求记录AI推理发生的位置。您的第一个Ollama设置创建了完整且可审计的本地环境。

中国:对于中文工作流,将llama3.2:3b替换为qwen2.5:3b作为第一个模型:`ollama pull qwen2.5:3b`。Qwen2.5处理中文文本的令牌效率比Llama高30-40%,在相同硬件层级上产生更好的结果。

运行第一个本地LLM的常见问题

模型响应非常慢——这正常吗?

在纯CPU硬件上,7B模型8-20个令牌/秒是正常的。每个令牌约0.75个词。10个令牌/秒时,100个词的响应大约需要13秒。要加速推理,使用较小模型(3B而不是8B),如有兼容GPU则启用GPU卸载,或使用Q4_K_M量化级别(最快的常用设置)。

我可以同时运行两个模型吗?

如果有足够的RAM,Ollama可以同时保持多个模型加载。默认情况下,Ollama在5分钟不活动后卸载模型。可通过OLLAMA_KEEP_ALIVE环境变量更改。同时运行两个7B模型需要约16 GB RAM。

如何停止Ollama在后台运行?

macOS:点击菜单栏中的llama图标并选择退出。Linux:运行`systemctl stop ollama`。Windows:右键单击系统托盘图标并选择退出。

首次运行本地LLM最简单的方法是什么?

安装Ollama(ollama.com),运行`ollama pull llama3.2:3b`,然后运行`ollama run llama3.2:3b`。就这样。三条命令,2-5分钟,您就在机器上拥有了一个可用的AI模型,初始下载后无需互联网。

如何知道本地LLM是否正常工作?

在终端运行`ollama ps`。如果模型在运行,它会在列表中显示其名称、大小和内存使用情况。发送一个简单提示词如"2+2等于几?"——如果回答"4",模型工作正常。

运行本地LLM需要GPU吗?

不需要。本地LLM在CPU上运行。GPU使推理速度快5-10倍,但对于学习和许多实际用例,纯CPU也完全可以。搭载Apple M1/M2、AMD Ryzen或英特尔第12代CPU的现代笔记本电脑可以以合理速度(10-30个令牌/秒)运行3B-7B模型。

本地LLM占用多少磁盘空间?

`llama3.2:1b`为1.3 GB,`llama3.2:3b`为2 GB,`llama3.1:8b`为4.7 GB。这些是Ollama存储的压缩大小。

没有互联网连接可以使用本地LLM吗?

可以,完全可以。用Ollama下载一次模型(需要互联网),然后永久在本地运行,完全不需要互联网。适合私人网络、飞机上或完全离线环境。

本地LLM与ChatGPT有何不同?

ChatGPT在Anthropic的服务器上运行。本地LLM在您的机器上运行。本地 = 零数据离开设备,完全隐私,无API费用。ChatGPT = 复杂任务质量更高,需要互联网和付费订阅。

Ollama中最值得尝试的第一个模型是什么?

`ollama pull llama3.2:3b`——2 GB,在任何现代笔记本电脑上运行,产生有竞争力的答案,是Ollama推荐的起点。

第一次运行后的下一步

现在您有了一个可用的本地LLM,探索它能做什么。要了解哪些模型最适合您的硬件,请参阅初学者最佳本地LLM模型。有关笔记本电脑专用性能技巧,请参阅如何在笔记本电脑上运行本地LLM

参考资料

第一次运行后的常见错误

  • 混淆令牌数和速度——7B模型以20个令牌/秒生成100个令牌需要5秒,不是即时的。
  • 在系统忙于其他任务时运行推理,显著降低有效令牌/秒。
  • 不检查上下文窗口限制——大多数初学者模型支持2K-8K令牌,而不是前沿模型的100K+。
  • 期望首次运行即时响应——首次响应包含模型加载时间(5-30秒)。同一会话中的后续响应快2-5倍。
  • 使用错误的模型标签——`llama3.1:8b-text`是基础文本补全模式,会无限循环/重复。聊天请使用`-instruct`标签如`llama3.1:8b-instruct`。

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

使用PromptQuorum将您的本地LLM与25+个云模型同时进行比较。

加入PromptQuorum等待列表 →

← 返回本地LLM

10分钟内用Ollama运行第一个本地LLM:分步安装指南2026 | PromptQuorum