Ollama在离线运行时是否产生网络调用？

不会。使用本地缓存运行`ollama serve`不会产生任何对外连接。

是否需要CAC安全评估？

内部离线部署通常不需要。CAC规定主要针对面向公众的AI服务。

本地部署是否符合《数据安全法》？

是的。本地推理数据始终在设备内，满足数据驻留要求。

主页/本地LLM进阶/防火墙后的本地AI：离线部署指南 2026

Overview & Reference

防火墙后的本地AI：离线部署指南 2026

最后更新: 2026-05-26·12分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人，多模型AI调度工具 · PromptQuorum

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

**首先在联网机器上下载Ollama、Q4_K_M模型文件和配置文件，通过USB/SSD传输到隔离环境。设置OLLAMA_MODELS环境变量后运行ollama serve。初次下载后无需网络连接。**

在企业防火墙或隔离网络环境中运行本地AI，需要在断网前下载所有依赖文件。一个遗漏的文件——分词器配置、提示模板或量化模型分片——就会导致无声失败。本指南提供完整的部署前检查清单、Ollama和llama.cpp的离线工作流程，以及针对中国《数据安全法》和CAC法规的合规说明。

关键要点

在联网机器上下载所有内容：Ollama二进制、GGUF模型、分词器配置
通过USB-SSD或内部网络传输——绝不使用云同步
设置OLLAMA_MODELS环境变量指向离线模型目录
Qwen3 14B（Q4_K_M，9.5 GB）是推荐的离线默认选择
NAS规划：每个7B模型20 GB，14B模型50 GB，32B模型100 GB（Q4_K_M格式）
《数据安全法》/CAC：本地推理满足数据驻留要求，数据始终在您的硬件内

部署前检查清单——断网前下载

在隔离环境之前，在联网机器上逐一确认以下所有项目。

1
Ollama二进制文件 — 从ollama.com下载您操作系统对应版本，推荐≥0.3.0。
2
模型GGUF文件 — 在联网机器上运行ollama pull qwen2.5:14b-instruct-q4_K_M。
3
分词器和聊天模板 — Ollama随模型清单一起打包；无需单独下载。
4
嵌入模型（离线RAG用）— ollama pull nomic-embed-text（274 MB）。
5
验证哈希 — 传输前对每个GGUF文件运行sha256sum，检测损坏。

联网机器上的下载命令

传输前在联网机器上运行所有命令。

ollama pull qwen2.5:14b-instruct-q4_K_M — 9.5 GB，推荐默认
ollama pull qwen2.5:7b-instruct-q4_K_M — 5.5 GB，低显存机器用
ollama pull nomic-embed-text — 274 MB，离线RAG嵌入
ollama pull deepseek-r1:7b — 5.5 GB，数学/推理为主时使用
模型文件位置：Linux/macOS的~/.ollama/models/，Windows的%USERPROFILE%\.ollama\models

Ollama离线工作流程

将文件传输到离线机器后：

1
将完整的~/.ollama/目录从联网机器复制到离线主机的相同路径。
2
安装Ollama二进制：chmod +x ollama && sudo mv ollama /usr/local/bin/
3
设置模型目录：export OLLAMA_MODELS=/path/to/offline/ollama/models
4
启动服务器：ollama serve — 检查日志确认无网络调用。
5
离线测试：ollama run qwen2.5:14b — 应立即响应，无外部URL请求。
6
局域网访问绑定：OLLAMA_HOST=0.0.0.0:11434 ollama serve

llama.cpp离线工作流程

llama.cpp在二进制文件+GGUF就位后完全自包含——无需运行时依赖。

将预构建二进制和GGUF文件传输到离线机器。
运行：./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080
OpenAI兼容API在http://localhost:8080/v1——任何OpenAI SDK的直接替代。

NAS存储规划

小团队的模型库通常存储3-6个不同规模的模型。

推荐NAS：群晖DS923+配4块4 TB硬盘（RAID 5，约12 TB可用）
2-3模型库最低配置：2 TB SSD（便携硬盘适合单机部署）
通过NFS挂载NAS到推理服务器，设置OLLAMA_MODELS为NFS路径

模型	Q4_K_M大小	Q8_0大小	所需显存
Qwen3 7B	5.5 GB	8.5 GB	8 GB
Qwen3 14B	9.5 GB	15 GB	12 GB
Qwen3 32B	20.5 GB	34 GB	24 GB
nomic-embed-text	0.27 GB	0.5 GB	1 GB

中国《数据安全法》和CAC合规

中国《数据安全法》（DSL，2021年）和《网络安全法》（CSL）要求在中国境内处理的重要数据在境内存储。国家互联网信息办公室（CAC）还要求提供面向公众服务的AI系统在上线前完成安全评估。

数据驻留： 本地推理意味着数据不会离开您的硬件，满足《数据安全法》第31条（重要数据在境内存储），与模型来源无关。
模型溯源： 选用Qwen3（阿里巴巴）或DeepSeek（杭州深度求索）简化企业合规文档，两者均为中国企业出品。
面向公众的AI服务： 若您的部署面向用户（非纯内部），需按CAC《算法安全评估规定》提交备案。仅供内部员工使用的离线部署通常不在范围内。
网络隔离验证： 使用iptables或防火墙规则确认推理服务器无对外连接——记录在案以供合规审查。
审计日志： Ollama默认不记录提示词。如内部数据治理政策要求，需在本地添加中间件（非云端）。

离线RAG设置

完全离线的检索增强生成（RAG）需要：本地LLM + 本地嵌入模型 + 本地向量数据库。

1
嵌入模型： 在联网机器上ollama pull nomic-embed-text，随Ollama模型目录一起传输。
2
向量数据库： Chroma可作为独立二进制运行（无需Python）；或使用Qdrant二进制版。
3
文档摄入： 离线使用LangChain或LlamaIndex（断网前下载wheel包）。文档加载器指向本地文件——无需网络爬虫。
4
查询流程： 文档 → 本地nomic-embed-text嵌入 → 从本地向量DB检索top-k片段 → 传递给本地Qwen3 → 响应。零外部调用。
5
验证： 用tcpdump -i any -n port 443确认完整RAG查询周期无HTTPS流量产生。

常见问题

Ollama在离线运行时是否会产生网络调用？

不会。Ollama仅在拉取或更新模型时连接ollama.com。使用本地缓存运行ollama serve不会产生任何对外连接。

本地AI部署是否符合中国《数据安全法》？

本地推理意味着数据始终留在您的硬件上，无论模型来自哪家公司，均满足《数据安全法》的数据驻留要求。

内部离线部署是否需要CAC算法安全评估？

通常不需要。CAC的算法安全评估规定主要针对面向公众的AI服务。仅供内部员工使用的部署通常不在范围内。请咨询合规专业人士了解您的具体情况。

最适合离线处理中文文本的最小模型是什么？

Qwen3 7B（Q4_K_M，5.5 GB显存）。原生中文分词，在RTX 3060上以50-80词元/秒运行，输出连贯。

如何在隔离环境中更新模型？

在联网机器上下载更新的GGUF，验证SHA256哈希，通过USB/SSD传输，替换模型目录中的旧文件，重启Ollama服务器。

← 返回本地LLM进阶