关键要点
- 在联网机器上下载所有内容:Ollama二进制、GGUF模型、分词器配置
- 通过USB-SSD或内部网络传输——绝不使用云同步
- 设置
OLLAMA_MODELS环境变量指向离线模型目录 - Qwen2.5 14B(Q4_K_M,9.5 GB)是推荐的离线默认选择
- NAS规划:每个7B模型20 GB,14B模型50 GB,32B模型100 GB(Q4_K_M格式)
- 《数据安全法》/CAC:本地推理满足数据驻留要求,数据始终在您的硬件内
部署前检查清单——断网前下载
在隔离环境之前,在联网机器上逐一确认以下所有项目。
- 1Ollama二进制文件 — 从ollama.com下载您操作系统对应版本,推荐≥0.3.0。
- 2模型GGUF文件 — 在联网机器上运行
ollama pull qwen2.5:14b-instruct-q4_K_M。 - 3分词器和聊天模板 — Ollama随模型清单一起打包;无需单独下载。
- 4嵌入模型(离线RAG用)—
ollama pull nomic-embed-text(274 MB)。 - 5验证哈希 — 传输前对每个GGUF文件运行
sha256sum,检测损坏。
联网机器上的下载命令
传输前在联网机器上运行所有命令。
ollama pull qwen2.5:14b-instruct-q4_K_M— 9.5 GB,推荐默认ollama pull qwen2.5:7b-instruct-q4_K_M— 5.5 GB,低显存机器用ollama pull nomic-embed-text— 274 MB,离线RAG嵌入ollama pull deepseek-r1:7b— 5.5 GB,数学/推理为主时使用- 模型文件位置:Linux/macOS的
~/.ollama/models/,Windows的%USERPROFILE%\.ollama\models
Ollama离线工作流程
将文件传输到离线机器后:
- 1将完整的
~/.ollama/目录从联网机器复制到离线主机的相同路径。 - 2安装Ollama二进制:
chmod +x ollama && sudo mv ollama /usr/local/bin/ - 3设置模型目录:
export OLLAMA_MODELS=/path/to/offline/ollama/models - 4启动服务器:
ollama serve— 检查日志确认无网络调用。 - 5离线测试:
ollama run qwen2.5:14b— 应立即响应,无外部URL请求。 - 6局域网访问绑定:
OLLAMA_HOST=0.0.0.0:11434 ollama serve
llama.cpp离线工作流程
llama.cpp在二进制文件+GGUF就位后完全自包含——无需运行时依赖。
- 将预构建二进制和GGUF文件传输到离线机器。
- 运行:
./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080 - OpenAI兼容API在
http://localhost:8080/v1——任何OpenAI SDK的直接替代。
NAS存储规划
小团队的模型库通常存储3-6个不同规模的模型。
- 推荐NAS:群晖DS923+配4块4 TB硬盘(RAID 5,约12 TB可用)
- 2-3模型库最低配置:2 TB SSD(便携硬盘适合单机部署)
- 通过NFS挂载NAS到推理服务器,设置
OLLAMA_MODELS为NFS路径
中国《数据安全法》和CAC合规
中国《数据安全法》(DSL,2021年)和《网络安全法》(CSL)要求在中国境内处理的重要数据在境内存储。国家互联网信息办公室(CAC)还要求提供面向公众服务的AI系统在上线前完成安全评估。
- 数据驻留: 本地推理意味着数据不会离开您的硬件,满足《数据安全法》第31条(重要数据在境内存储),与模型来源无关。
- 模型溯源: 选用Qwen2.5(阿里巴巴)或DeepSeek(杭州深度求索)简化企业合规文档,两者均为中国企业出品。
- 面向公众的AI服务: 若您的部署面向用户(非纯内部),需按CAC《算法安全评估规定》提交备案。仅供内部员工使用的离线部署通常不在范围内。
- 网络隔离验证: 使用
iptables或防火墙规则确认推理服务器无对外连接——记录在案以供合规审查。 - 审计日志: Ollama默认不记录提示词。如内部数据治理政策要求,需在本地添加中间件(非云端)。
离线RAG设置
完全离线的检索增强生成(RAG)需要:本地LLM + 本地嵌入模型 + 本地向量数据库。
- 1嵌入模型: 在联网机器上
ollama pull nomic-embed-text,随Ollama模型目录一起传输。 - 2向量数据库: Chroma可作为独立二进制运行(无需Python);或使用Qdrant二进制版。
- 3文档摄入: 离线使用LangChain或LlamaIndex(断网前下载wheel包)。文档加载器指向本地文件——无需网络爬虫。
- 4查询流程: 文档 → 本地nomic-embed-text嵌入 → 从本地向量DB检索top-k片段 → 传递给本地Qwen2.5 → 响应。零外部调用。
- 5验证: 用
tcpdump -i any -n port 443确认完整RAG查询周期无HTTPS流量产生。
常见问题
Ollama在离线运行时是否会产生网络调用?
不会。Ollama仅在拉取或更新模型时连接ollama.com。使用本地缓存运行ollama serve不会产生任何对外连接。
本地AI部署是否符合中国《数据安全法》?
本地推理意味着数据始终留在您的硬件上,无论模型来自哪家公司,均满足《数据安全法》的数据驻留要求。
内部离线部署是否需要CAC算法安全评估?
通常不需要。CAC的算法安全评估规定主要针对面向公众的AI服务。仅供内部员工使用的部署通常不在范围内。请咨询合规专业人士了解您的具体情况。
最适合离线处理中文文本的最小模型是什么?
Qwen2.5 7B(Q4_K_M,5.5 GB显存)。原生中文分词,在RTX 3060上以50-80词元/秒运行,输出连贯。
如何在隔离环境中更新模型?
在联网机器上下载更新的GGUF,验证SHA256哈希,通过USB/SSD传输,替换模型目录中的旧文件,重启Ollama服务器。