Skip to main content
PromptQuorumPromptQuorum
主页/Power Local LLM/防火墙后的本地AI:离线部署指南 2026
Coding Assistants

防火墙后的本地AI:离线部署指南 2026

·12分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

**首先在联网机器上下载Ollama、Q4_K_M模型文件和配置文件,通过USB/SSD传输到隔离环境。设置OLLAMA_MODELS环境变量后运行ollama serve。初次下载后无需网络连接。**

在企业防火墙或隔离网络环境中运行本地AI,需要在断网前下载所有依赖文件。一个遗漏的文件——分词器配置、提示模板或量化模型分片——就会导致无声失败。本指南提供完整的部署前检查清单、Ollama和llama.cpp的离线工作流程,以及针对中国《数据安全法》和CAC法规的合规说明。

关键要点

  • 在联网机器上下载所有内容:Ollama二进制、GGUF模型、分词器配置
  • 通过USB-SSD或内部网络传输——绝不使用云同步
  • 设置OLLAMA_MODELS环境变量指向离线模型目录
  • Qwen2.5 14B(Q4_K_M,9.5 GB)是推荐的离线默认选择
  • NAS规划:每个7B模型20 GB,14B模型50 GB,32B模型100 GB(Q4_K_M格式)
  • 《数据安全法》/CAC:本地推理满足数据驻留要求,数据始终在您的硬件内

部署前检查清单——断网前下载

在隔离环境之前,在联网机器上逐一确认以下所有项目。

  1. 1
    Ollama二进制文件 — 从ollama.com下载您操作系统对应版本,推荐≥0.3.0。
  2. 2
    模型GGUF文件 — 在联网机器上运行ollama pull qwen2.5:14b-instruct-q4_K_M
  3. 3
    分词器和聊天模板 — Ollama随模型清单一起打包;无需单独下载。
  4. 4
    嵌入模型(离线RAG用)— ollama pull nomic-embed-text(274 MB)。
  5. 5
    验证哈希 — 传输前对每个GGUF文件运行sha256sum,检测损坏。

联网机器上的下载命令

传输前在联网机器上运行所有命令。

  • ollama pull qwen2.5:14b-instruct-q4_K_M — 9.5 GB,推荐默认
  • ollama pull qwen2.5:7b-instruct-q4_K_M — 5.5 GB,低显存机器用
  • ollama pull nomic-embed-text — 274 MB,离线RAG嵌入
  • ollama pull deepseek-r1:7b — 5.5 GB,数学/推理为主时使用
  • 模型文件位置:Linux/macOS的~/.ollama/models/,Windows的%USERPROFILE%\.ollama\models

Ollama离线工作流程

将文件传输到离线机器后:

  1. 1
    将完整的~/.ollama/目录从联网机器复制到离线主机的相同路径。
  2. 2
    安装Ollama二进制:chmod +x ollama && sudo mv ollama /usr/local/bin/
  3. 3
    设置模型目录:export OLLAMA_MODELS=/path/to/offline/ollama/models
  4. 4
    启动服务器:ollama serve — 检查日志确认无网络调用。
  5. 5
    离线测试:ollama run qwen2.5:14b — 应立即响应,无外部URL请求。
  6. 6
    局域网访问绑定:OLLAMA_HOST=0.0.0.0:11434 ollama serve

llama.cpp离线工作流程

llama.cpp在二进制文件+GGUF就位后完全自包含——无需运行时依赖。

  • 将预构建二进制和GGUF文件传输到离线机器。
  • 运行:./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080
  • OpenAI兼容API在http://localhost:8080/v1——任何OpenAI SDK的直接替代。

NAS存储规划

小团队的模型库通常存储3-6个不同规模的模型。

  • 推荐NAS:群晖DS923+配4块4 TB硬盘(RAID 5,约12 TB可用)
  • 2-3模型库最低配置:2 TB SSD(便携硬盘适合单机部署)
  • 通过NFS挂载NAS到推理服务器,设置OLLAMA_MODELS为NFS路径

中国《数据安全法》和CAC合规

中国《数据安全法》(DSL,2021年)和《网络安全法》(CSL)要求在中国境内处理的重要数据在境内存储。国家互联网信息办公室(CAC)还要求提供面向公众服务的AI系统在上线前完成安全评估。

  • 数据驻留: 本地推理意味着数据不会离开您的硬件,满足《数据安全法》第31条(重要数据在境内存储),与模型来源无关。
  • 模型溯源: 选用Qwen2.5(阿里巴巴)或DeepSeek(杭州深度求索)简化企业合规文档,两者均为中国企业出品。
  • 面向公众的AI服务: 若您的部署面向用户(非纯内部),需按CAC《算法安全评估规定》提交备案。仅供内部员工使用的离线部署通常不在范围内。
  • 网络隔离验证: 使用iptables或防火墙规则确认推理服务器无对外连接——记录在案以供合规审查。
  • 审计日志: Ollama默认不记录提示词。如内部数据治理政策要求,需在本地添加中间件(非云端)。

离线RAG设置

完全离线的检索增强生成(RAG)需要:本地LLM + 本地嵌入模型 + 本地向量数据库。

  1. 1
    嵌入模型: 在联网机器上ollama pull nomic-embed-text,随Ollama模型目录一起传输。
  2. 2
    向量数据库: Chroma可作为独立二进制运行(无需Python);或使用Qdrant二进制版。
  3. 3
    文档摄入: 离线使用LangChain或LlamaIndex(断网前下载wheel包)。文档加载器指向本地文件——无需网络爬虫。
  4. 4
    查询流程: 文档 → 本地nomic-embed-text嵌入 → 从本地向量DB检索top-k片段 → 传递给本地Qwen2.5 → 响应。零外部调用。
  5. 5
    验证:tcpdump -i any -n port 443确认完整RAG查询周期无HTTPS流量产生。

常见问题

Ollama在离线运行时是否会产生网络调用?

不会。Ollama仅在拉取或更新模型时连接ollama.com。使用本地缓存运行ollama serve不会产生任何对外连接。

本地AI部署是否符合中国《数据安全法》?

本地推理意味着数据始终留在您的硬件上,无论模型来自哪家公司,均满足《数据安全法》的数据驻留要求。

内部离线部署是否需要CAC算法安全评估?

通常不需要。CAC的算法安全评估规定主要针对面向公众的AI服务。仅供内部员工使用的部署通常不在范围内。请咨询合规专业人士了解您的具体情况。

最适合离线处理中文文本的最小模型是什么?

Qwen2.5 7B(Q4_K_M,5.5 GB显存)。原生中文分词,在RTX 3060上以50-80词元/秒运行,输出连贯。

如何在隔离环境中更新模型?

在联网机器上下载更新的GGUF,验证SHA256哈希,通过USB/SSD传输,替换模型目录中的旧文件,重启Ollama服务器。

← 返回 Power Local LLM

防火墙后本地AI离线部署 2026:完整指南 | PromptQuorum