关键要点
- 本地托管必要但不充分。 在自有硬件上运行模型与向量库解决了跨境传输与处理者数量问题,但 GDPR 第 5、25、30、32、35 条仍然适用。合法性基础、数据最小化、审计日志、处理安全性与 DPIA 不会因为数据留在内部就变为可选项。
- 六项控制不可妥协,与部署模式无关:空气隔离或严格出站控制、按用户认证并启用基于角色的访问、不可篡改审计日志、静态与传输加密、从分块回溯到源文档的确定性血缘,以及覆盖向量索引和缓存嵌入的书面删除路径。
- 三种部署模式覆盖大部分受监管场景。 独立专业人员与案件评审用单用户笔记本;5–50 用户的部门级知识库用本地服务器;多法人部署、容灾优先于完全空气隔离时用私有欧盟云(主权区域、客户管理密钥)。
- 欧盟 AI 法案将大多数本地 RAG 归为有限风险 — 但一旦检索结果被自动决策(信用评分、招聘筛选、福利资格判定)使用,部署立刻滑入高风险,触发完整合规评估、上市后监测与人工监督义务。
- 第 35 条 DPIA 是强制的:只要 RAG 大规模摄入特殊类别数据(健康、法律、生物特征、政治、工会信息),或系统产生具有法律效力的自动决策。跳过 DPIA 等于跳过审计辩护。
- 被遗忘权是大多数部署失败的删除测试。 源文档简单;向量索引可重建;缓存嵌入、检索日志和聊天历史中的回答 — 这些是被忽略的部分,也是监管机构必问的部分。
- 开源嵌入模型原则上符合 GDPR,但需满足三个条件:(a) 权重一次性下载并固定到哈希;(b) 推理完全本地、无遥测;(c) 模型卡和许可经过审查,没有与机密业务使用相冲突的条款。
快速事实
- 6 项强制控制: 空气隔离、RBAC、审计日志、加密、数据血缘、删除路径。
- 3 种部署模式: 单用户笔记本(独立专业人员)、本地服务器(5–50 用户)、私有欧盟云(多法人)。
- DPIA 强制(第 35 条): 大规模处理特殊类别数据(健康、法律、生物特征)时。
- 欧盟 AI 法案: 大多数本地 RAG = 有限风险;检索喂给自动决策(信用、招聘、福利)即为高风险。
- 中国《数据安全法》(2021) 与《个人信息保护法》(PIPL) 要求重要数据本地化处理;本地 RAG 天然满足该结构性要求。
- 被遗忘权 / 删除请求 必须覆盖源文档、向量索引、缓存嵌入与回答历史。
- 开源嵌入模型 仅在权重固定、推理完全本地、许可审查通过后才符合 GDPR。
部署模式对比
每种模式都可以做到合规;变化的是控制成本与故障模式。请选择匹配用户数、文档敏感度与容灾需求的最简单模式。
| 控制 | 单用户笔记本 | 本地服务器 | 私有欧盟云 |
|---|---|---|---|
| 空气隔离(无出站网络) | 简单 — 关闭网络 | 可行 — VLAN + 防火墙 | 困难 — 仅出站白名单 |
| 审计日志(谁、什么、何时) | 手动 — 仅 OS 级别 | 强 — 集中式日志管道 | 强 — 云原生日志 |
| 数据血缘(分块 → 源) | 仅本地文件 | 管道完全可追溯 | 完整 — 跨区域 |
| EU 数据驻留 | 本质 — 物理位置 | 本质 — 物理位置 | 配置 — 需主权区域 |
| 按用户 RBAC | 单用户 — 不适用 | 身份提供者 + 群组 | IAM + SSO + 集合级 ACL |
| 备份与灾难恢复 | 加密外置磁盘 | 磁带或异地备份 | 跨可用区复制 |
| 初始成本 | 仅硬件 — 低 | 服务器 + 集成 — 中 | 订阅 + 部署 — 中 |
| 持续成本 | 无 — 系统管理工时 | IT 运维 + 电力 + 散热 | 按月持续 |
| 最佳适用 | 独立专业人员、案件评审 | 5–50 用户、部门 KB | 多法人、需容灾的部署 |
选择部署模式
正确选择取决于用户数、文档敏感度、审计就绪压力以及内部 IT 容量。 下面这张速查表覆盖大多数实际情况。
| 您的情况 | 建议 |
|---|---|
| 一次处理一个案件的独立律师、医生或审计师 | 单用户笔记本 |
| 3–5 名指定评审人、有固定结束日期的并购数据室 | 单用户笔记本或本地(按文档量决定) |
| 10–30 人合规团队共享监管通信档案 | 本地服务器 |
| 医院科室为 50 名医务人员构建临床指南助手 | 本地服务器 |
| 在多个欧盟国家的子公司间运行同一套 RAG 的多法人集团 | 私有欧盟云(主权区域 + 客户管理密钥) |
| 需 24/7 可用性与灾备方案的保险公司 | 私有欧盟云 |
| 处理涉密或受限数据的政府机构 | 仅空气隔离的本地部署 — 云不在范围内 |
| 6 周内要应对监管审计辩护 | 本地服务器(最快展示出已掌控) |
为何为机密数据选本地 RAG
本地 RAG 优于云 LLM-as-a-Service 不是立场,而是 GDPR 风险评估的形态决定的。 云 RAG 在很多场景可行;处理机密业务数据时,它额外引入五类风险,而本地 RAG 通过架构本身就消除了它们。
📍 简单一句话
本地 RAG 让机密文档保留在自有硬件上,同时为团队提供 AI 驱动的检索 — 数据不出大楼、第三方处理者不接触、跨境传输问题不存在。
💬 简单来说
想象一下:法务团队可以用自然语言检索 1 万份案件档案 — 但文档从未离开机房。这就是本地 RAG:AI 在您的硬件上读取文档,在您的硬件上回答问题,没有任何东西被发送出去。合规优势不是功能,而是架构本身。
- 跨境传输(第 44–49 条)。 把个人数据发往非欧盟处理者需要标准合同条款、传输影响评估,并能回答接收司法辖区是否有可触及该数据的传唤权力。本地 RAG 不传输数据 — 问题不出现。
- 子处理者扩散(第 28 条)。 云 LLM 提供商通常依赖超大规模云基础设施、内容审核服务与可观察性供应商。每一个都是子处理者,必须列示、签约并审计。本地 RAG 默认零子处理者。
- 训练数据泄露。 许多云 LLM 条款保留使用客户提示进行模型改进的权利,除非购买付费企业版并核实"不训练"条款。本地 RAG 运行您自己控制权重的模型;没有任何东西离开主机。
- 客户合同中的保密条款。 外部律师协议、并购 NDA 与患者数据合同往往禁止把受保护材料传输给第三方处理者。本地 RAG 直接绕开此类条款。
- 司法传唤与法律程序暴露。 存于云的文档可被针对云提供商的司法程序强制提交,且数据控制者可能无法及时获悉披露义务。从未离开您内部的文档,只能从您处获取。
📌Note: 本地 RAG 不是所有工作负载的正确答案。公开信息研究、营销草稿生成、对开源代码库的代码助手 — 这些通常用云 LLM 更合适,因为 GDPR 暴露低、模型质量差距重要。本文的论点专门针对机密业务数据:法务、医疗、金融、人力资源、监管通信与商业秘密。
六项必备控制
这六项控制是底线。 任何受监管的部署都需要全部六项;部署模式只改变实施方式。漏掉任意一项,是审计失败最常见的原因。
- 1空气隔离或严格出站控制
Why it matters: 确认文档与嵌入不会通过出站调用泄漏 — 遥测 SDK、模型更新探针、崩溃报告、内容审核回调、字体第三方 CDN。要么完全禁用网络访问(真正空气隔离),要么仅允许签名更新服务器的出站白名单。 - 2按用户认证 + 基于角色的访问
Why it matters: 在监管机构追问之前,您必须能回答"谁访问了哪份文档"。SSO 对接身份提供者、按群组管理集合访问、按案件需要细化到文档级 ACL。共享账号不是控制,是等待发生的审计失败。 - 3覆盖入库与检索的不可篡改审计日志
Why it matters: 每份文档:谁上传、何时、源路径、哈希。每次查询:谁问的、问了什么(如允许)、检索到哪些分块、来自哪些文档 ID、返回的回答是什么。日志须防篡改 — 仅追加、签名、保留期至少覆盖监管机构调查窗口。提示级别的审计追踪 — 版本控制、变更日志、回滚 — 见[提示版本控制工作流](/prompt-engineering/prompt-version-control-workflows?lang=zh)。 - 4静态与传输加密
Why it matters: 主机磁盘加密、内部服务间调用 TLS、能扛住笔记本被盗或管理员账号被攻陷的密钥管理。云部署使用客户管理密钥。否则一次设备失窃就会变成第 33 条下的可通报数据泄露。 - 5从分块到源文档的确定性数据血缘
Why it matters: 每个被检索的分块都必须能回溯到其源文档、页面、章节和版本。这才让您能 (a) 验证回答;(b) 履行删除请求;(c) 在生成摘要被质询时进行法律辩护。"我们无法重现哪个分块产生了哪个回答"对监管机构不可接受。 - 6覆盖向量索引与缓存嵌入的书面删除路径
Why it matters: 被遗忘权请求必须从源系统传播到向量索引、缓存嵌入与检索日志保留。多数部署能干净地处理源端删除,却忘了其余环节。上线前就要文档化删除剧本,并用合成数据演练。
空气隔离与出站控制
空气隔离意味着主机没有出站网络路径;出站控制意味着只允许严格白名单。 两者都可接受;选择您运维能持续支撑的最强模式。
- 真正空气隔离 — 无 DHCP、不解析公网 DNS、无出站 TCP。更新通过管理员物理接入的签名介质完成。适合涉密工作、特定医院网络以及威胁模型包含恶意依赖的部署。
- 出站白名单 — 仅允许出站到一小串命名目标(模型更新服务器、身份提供者、内部日志收集器)。其余流量在防火墙丢弃。这是大多数受监管部门级部署的实用默认。
- 平台需检查项: 默认零遥测、推理过程无出站调用、UI 无字体 CDN、无发送负载的崩溃报告。在测试台用抓包或类似 Little Snitch 的工具验证后再上生产。
- 更新治理 — 模型权重、嵌入器权重、应用代码与 OS 补丁都要通过受控更新窗口。批准更新的管理员书面签字、变更入日志。
- 常见空气隔离破坏: 第三方 UI 组件捆绑的分析 SDK;应用界面的字体 CDN;启动时执行的"检查更新"探针。所以才需要验证步骤 — 不要默认相信任何默认值。
💡Tip: 在主机上对开启且空闲的应用做 24 小时抓包。任何不在白名单上的出站都是发现项。每次应用更新都重做 — 发布说明常常低估新增的出站调用。
能经受审查的审计日志
审计日志是监管机构最先翻看的产物。 它必须就每次检索回答两个问题:谁问了,系统给了什么。否则您只能用言辞辩论;有了正确日志,您就能拿出凭据。
- 入库事件: 文档 ID、哈希(SHA-256)、文件名、源路径、上传者、时间戳、分类标签、大小、页数、所属群组、保留类。入库时即打标 — 大型语料的回溯分类既艰苦又少能完整。
- 检索事件: 查询 ID、用户 ID、时间戳、检索到的分块 ID(及其来源文档 ID)、检索得分、最终回答哈希、模型标识、嵌入器标识、使用的 top-K。查询文本本身敏感 — 仅在处理目的覆盖时记录;否则只记哈希与时间戳。
- 管理事件: 模型晋升、嵌入器变更、索引重建、用户/群组变更、ACL 变更、访问策略变更。每条事件由责任管理员签名。
- 防篡改: 仅追加日志、哈希链(每条引用前一条的哈希)、带外签名密钥、定期与不同管理员或一次写介质上的副本核对。
- 保留期: 与监管机构调查窗口对齐 — 至少覆盖案件保留期;受监管行业常见 6–7 年;行业规则更长则更长。
- 管道: 应用产出结构化事件;转发器送至独立、写入受限的日志库。应用服务器永远不应有删除或重写日志条目的权限 — 职责分离才让日志可信。
📌Note: 记录查询文本本身就是 GDPR 议题 — 查询本身可能含个人数据(如"汇总患者 X 的病史")。设计阶段决定您的处理目的是否覆盖查询日志;不覆盖则只记审计与运维诊断所需的元数据。
从分块到源文档的数据血缘
血缘是其他控制的脊梁。 没有它,删除请求会失败,回答验证不可能,审计追踪崩塌。从首次入库就构建血缘,不要事后补。
- 文档级血缘: 每份文档有稳定的内部 ID、内容哈希、入库时间戳、所属、分类、保留类。原文件留在源系统,RAG 系统持有引用而非主拷贝。
- 分块级血缘: 每个分块引用其父文档 ID、页码(PDF)、章节(结构化文档)、字符偏移、长度与分块策略版本。重新分块时(您一定会做),旧分块墓碑标记而非原地删除 — 让旧检索日志仍可解析。
- 嵌入级血缘: 每条嵌入向量引用其分块 ID 和嵌入器标识。更换嵌入器时,旧向量保留至新向量验证完成且引用过它们的案件结案,方可清除。
- 回答级血缘: 每条生成回答引用产出它的分块 ID、模型标识、提示模板版本与时间戳。当用户问"这个回答从哪来",系统一键解析 分块 → 文档 → 页码。
- 重建索引而不破坏血缘: 重建保留文档 ID 并递增分块策略版本。即使在线索引更新了,旧分块 ID 在检索日志中仍可解析。
💡Tip: 每季度测试血缘链。从审计日志随机选一次检索,逐级回溯:分块 ID → 文档 ID → 源系统中的原文件 → 保留类。任何环节断裂,应在下次监管检查前修复 — 而非检查中。
加密与访问控制
静态加密、传输加密,以及对接现有身份提供者的访问控制。 这些都是成熟控制;失败模式是漏掉三层中的某一层,而非把选定的层做差。
- 静态加密 — 主机全盘加密(Linux 上 LUKS、Windows 上 BitLocker、macOS 上 FileVault 用于笔记本)。服务器还要加密承载向量库与入库暂存的分区。云部署用客户管理密钥并按策略轮换。
- 传输加密 — 任何服务间跳转都要 TLS,包括 localhost。密码套件策略对齐行业基线。威胁模型需要时启用 mTLS — 通常云部署的服务到服务间。
- 身份认证 — 对接现有身份提供者(OIDC、SAML)的 SSO。生产环境无本地账号。具备管理或敏感集合访问权限的用户强制 MFA。
- 授权 — 集合级群组访问;案件需要时启用文档级 ACL(并购数据室、雇佣调查等)。检索流水线必须在查询时强制 ACL — 不是仅 UI。看不到文档的用户也不应拿到其分块。
- 管理员访问 — 任何能读或重建索引、查看审计日志、修改 ACL 的账号都要纳入特权访问管理。带审计理由的即时提权优于长期管理员权限。
- 端点安全 — 笔记本部署须用受管理设备(MDM 注册、加密、强制锁屏策略)。文档库已解密、无人值守留在咖啡馆的独立专业人员笔记本,是您不愿提交的 GDPR 泄露。
单用户笔记本模式
单用户笔记本是最容易做到空气隔离、最难规模化的模式。 适合独立专业人员与单次案件评审;不适合任何需要超越单一用户或抗用户离职的场景。
- 硬件 — 工作站级笔记本,具备全盘加密、独立 GPU(或近年的统一内存机型)、至少 32 GB 内存。模型与嵌入器要与向量库缓存共驻内存。按 VRAM 选择硬件与模型可参考 本地 LLM 硬件指南。
- 软件 — 自包含的桌面 RAG 应用本地运行;权重一次性下载并固定哈希的开源 LLM;开源嵌入器;运行在加密磁盘上的本地向量库。适合本地 RAG 的开源模型对比见 Ollama 顶级开源模型。
- 网络姿态 — 工作时空气隔离;仅在显式签名更新时重新连接。把 OS 防火墙配置为默认拒绝所有出站,并为更新流程开放显式例外。
- 文档处置 — 源文档放加密磁盘;按案件分目录;每周加密备份到异地外置驱动器。
- 审计姿态 — OS 级审计日志(登录、文件访问、外设事件)作为底层。应用级事件在本地服务器模式更易;笔记本模式以 OS 日志为主,并以案件级人工记录补充。
- 限制 — 单用户笔记本不是多用户平台。共享笔记本、共享账号或把文档库拷给同事,会同时破坏审计姿态与合法性基础。
💡Tip: 对处理机密案件的独立专业人员,单用户笔记本模式确实是最强的隐私姿态 — 优于任何云、强于许多本地部署。代价是运维:笔记本损坏时,案件继承您备份纪律的恢复时长。
本地服务器模式
本地服务器是受监管部门级 RAG 的主力模式。 可扩展到 5–50 用户与几千份文档,支持完整审计日志,留在物理边界内。代价是真实的 IT 运维投入。
- 硬件 — 配备 1–2 块企业级 GPU(小语料工作站级 GPU 也可)、冗余磁盘、ECC 内存与 UPS 的服务器。规划存储为原始语料的 2–4 倍,覆盖向量、索引、日志与备份。
- 网络 — 企业防火墙后的专用 VLAN;按威胁模型决定出站白名单或完全空气隔离。仅企业网内部访问,无公网入站。
- 软件栈 — 自托管 RAG 平台(独立服务器镜像或容器化部署)、开源 LLM 作为聊天模型、开源嵌入器、按语料规模选择的向量库。应用服务器、向量库与日志转发器以独立进程独立服务账号运行。
- 身份 — 与企业身份提供者联邦;群组成员驱动集合访问;敏感集合走附加审批流。
- 备份与灾备 — 每晚增量备份文档库与向量索引;每周全量;IT 保管异地副本。文档化恢复剧本至少每年演练。
- 运维 — 按变更管理策略制定补丁窗口;季度访问评审;为被遗忘权请求演练删除剧本;记录可保留血缘的模型与嵌入器升级路径。
- 容量规划 — 几千份文档与 5–50 并发用户在单台中端 GPU 服务器上运行良好。再多就规划更强主机或迁移到私有云模式。
📌Note: 本地 RAG 最常因非技术原因失败:从未验证过的备份;IT 共享的管理员账号;没人测过的 UPS;两个月静默丢事件的日志转发器。技术控制比运维卫生更易做到位。
本地 RAG 的向量数据库选择
向量库选择鲜少决定合规 — 但塑造运维成本、规模上限以及删除剧本能否干净落地。 大多数受监管部署在以下六者中选择。
| 向量数据库 | 类型 | EU 自托管 | 最佳 RAG 模式 |
|---|---|---|---|
| Chroma | 开源、轻量 | ✅ | 笔记本 + 小型本地 |
| Qdrant | 开源、高性能 | ✅ | 本地服务器,过滤密集 |
| Weaviate | 开源、功能完整 | ✅ | 本地 + 混合搜索 |
| Milvus | 开源、企业级 | ✅ | 大规模本地部署 |
| pgvector | PostgreSQL 扩展 | ✅ | 已使用 Postgres 的团队 |
| Pinecone | 托管 SaaS | ⚠️ 美国托管 | 仅私有欧盟云(有保留意见) |
私有欧盟云模式
私有欧盟云模式使用主权区域云提供商、客户管理密钥、仅 EU 数据驻留,并签订不在客户数据上训练 AI 的合同条款。 适合多法人部署、需多区域容灾、以及缺乏完整本地运维能力的团队。
- 提供商选择 — 超大规模云的欧盟主权产品或欧洲云提供商。DPA 必须列出每个子处理者;若任一子处理者在 EEA 之外,须处理传输机制。即使直接处理者位于欧盟,Schrems II 类传输影响分析仍要纳入档案。
- 区域 — 仅 EU,并提供明确的数据驻留承诺。跨区复制仅至其他 EU 区域。即使临时、即使是备份,也不得故障切换至美国区域。
- 加密 — 客户管理密钥并定期轮换;提供商支持时启用自带密钥;密钥访问事件与云提供商运维日志分离记录。
- 网络 — 私有 VPC、无公网入站;仅通过私有连接(专线或 VPN)从企业网访问;任何出站依赖纳入白名单。
- 身份 — 与企业 IdP 联邦;云原生 IAM 绑定到用户身份,不绑定共享服务账号;检索流水线在集合层强制 ACL。
- 日志 — 云原生审计日志接入既有 SIEM;应用审计事件单独摄入;防篡改保留期满足监管期望。
- 合同 — DPA 须符合第 28 条,列出子处理者,必要时处理 SCCs,并包含明确的不在客户数据上训练的条款(覆盖 LLM 权重及检索、遥测、支持等周边服务)。
💡Tip: 私有欧盟云模式因引入第三方处理者,看起来不如本地严格 — 但配合主权区域、客户管理密钥、合同性"不训练"条款与适当出站控制,可在可用性与审计姿态上匹敌甚至超过本地。合规档案更厚;运维风险更小。
欧盟 AI 法案分级:有限风险 vs 高风险
大多数本地 RAG 在欧盟 AI 法案下属于有限风险 — 但只要检索结果被自动决策影响人类,分级即升至高风险,义务成倍增加。 在动手前先分级。
- 有限风险(多数本地 RAG) — 系统检索并汇总文档以辅助人类,由人做决策。义务以透明性为主:用户须知正在与 AI 交互、生成内容须可识别、不得有操纵或欺骗性设计。
- 高风险 — 检索喂给法案列举领域的自动决策:信用评分、招聘筛选、教育录取、关键公共服务、执法、移民、司法、生物识别、关键基础设施。推荐治疗的临床决策辅助 RAG 是高风险;帮医生更快读指南的临床指南摘要 RAG 不是。
- 高风险义务 — 全生命周期风险管理体系、数据治理(训练/验证/测试数据文档化)、技术文档、自动事件日志、对用户的透明与告知、人工监督、准确性与稳健性、上市前合规评估、上市后监测。
- 通用 AI 考量 — 使用通用 LLM(开源或其他)不会把高风险义务转嫁给模型提供方。部署方(贵组织)承担用该模型构建之系统的高风险义务。
- 禁止行为 — 社会评分、未经定向的人脸图像爬取、工作场所与学校的情绪识别、特定的实时生物特征分类。无论部署多么本地,这些都不可触碰。
- 文档作为审计产物 — 高风险系统所需技术档案不是一次性交付,而是活文档。绑定到变更管理流程,让每次模型晋升、嵌入器变更、ACL 修改都反映其中。
📌Note: 高风险与有限风险的边界由用例划,不由技术划。同一向量库与同一模型,在研究助手部署中是有限风险,在 HR 筛选部署中即为高风险。按用例分级,不按平台分级。
DPIA 要求(第 35 条)
数据保护影响评估(第 35 条)针对可能给数据主体带来高风险的处理强制执行。 多数受监管的本地 RAG 在范围内。把 DPIA 当作设计文档,而非事后合规材料。
- 何时强制 — 包含具有法律效力之画像的系统性、广泛评估;大规模处理特殊类别数据(健康、法律、生物特征、种族、政治、宗教、工会);公共区域的系统性监控。各国监管机构会发布始终需要 DPIA 的处理清单 — 请核对您所在国。
- DPIA 范围 — 目的与合法性基础;处理操作描述;必要性与比例性;对数据主体的风险评估;缓解措施与剩余风险;与 DPO 协商;剩余风险高时,开展处理前与监管机构协商。
- RAG 特定风险 须处理:从检索分块对个人再识别;产生影响个人的不准确信息;通过日志或备份泄露;被遗忘权删除完整性;跨集合污染;高权限用户访问范围过宽。
- 应文档化的缓解措施 — 上述六项控制;合法性基础为同意或正当利益时进行分块级脱敏或假名化;带演练证据的删除剧本;约定节奏的访问评审。
- 评审者 — DPO 签字;缓解后剩余风险仍高时与监管机构协商。已签字的 DPIA 与欧盟 AI 法案合规文档一并归入技术档案(若系统也属高风险)。
- 活文档 — 语料显著扩展、模型或嵌入器变更、访问边界变更,或每年作为基线时,重新执行 DPIA。绑定到变更管理流程。
💡Tip: 项目第二周写的 DPIA 是规划工具;第十周写的是辩护文件。前者更有用,且常浮现降低最终剩余风险的设计变更。在采购决策之前启动 DPIA,而非部署之后。
德国地区注意事项(Datenschutz)与中国合规对照
德国数据保护实务在 GDPR 基线之上叠加 BDSG-Neu、行业规则、BSI-Grundschutz 模块以及职工委员会的共决权。 满足通用 GDPR 的 RAG 部署,在德国评审中仍可能因下列点被驳回。
- 职工委员会(Betriebsrat)共决 — 根据 §87 BetrVG,凡监控员工绩效或行为的系统在部署前需职工委员会同意。覆盖员工撰写内容(邮件、内部文档)的 RAG 通常触发该条。设计阶段就让职工委员会介入;协议(Betriebsvereinbarung)成为合法性基础档案的一部分。
- 行业保密 — §203 StGB 将违反职业保密义务(律师、医生、税务顾问、审计师)入罪。把客户/患者保护数据暴露给非保密义务人员或外部处理者,可能不仅是民事问题,而是刑事问题。这些行业更安全的选择是本地或空气隔离模式。
- Telemediengesetz(TTDSG)与遥测 — 触及终端用户设备的出站遥测不仅受 GDPR 规制,也受 TTDSG。空气隔离让该问题不存在;出站受控部署须验证每次出站调用都已同意、必要或纯技术。
- BSI-Grundschutz 模块 — 对于政府机构与 KRITIS 运营者,BSI-Grundschutz-Kompendium 提供约束性基准。即便在中型企业,OPS.1.2.4(云使用)、OPS.2.1(外包)与 APP.4.4(Web 应用)等模块仍是架构文档的有用参考。
- 监管机关(联邦与各州) — 私营部门数据保护监管按州组织。在第 36 条协商必要时联系所属州数据保护专员(Landesbeauftragte für Datenschutz)。
- 中国本地化对照 — 对于在中国境内运营或处理境内数据的部署,《数据安全法》(2021)、《个人信息保护法》(PIPL) 与 CAC 规则要求重要数据本地化、跨境数据传输安全评估。本地 RAG 通过架构本身满足"重要数据存储于境内"原则;同时建议参考国家标准 GB/T 35273(个人信息安全规范)与等保 2.0 三级标准(涉及金融、医疗、政府场景时通常为强制要求)。
- 文档语言 — 德国监管机关接受英文文档,但关键的面向用户的产物(隐私通知、透明度声明、职工委员会协议)出于法律与实务考虑应以德文编写。
上线前合规清单
任何生产环境上线前,端到端走完此清单。 每一项都是真实审计中的真实失败模式;清单刻意保持简短,以便真正被使用。
- ☐ 合法性基础已记录 — 每类源数据:同意、合同、法定义务、生命利益、公共任务,或带利益衡量测试的正当利益。
- ☐ DPO 已签署 DPIA,并附演练过的删除剧本。
- ☐ 处理活动记录(第 30 条) 已更新,纳入 RAG 系统、数据类别、保留、接收方与传输机制(本地 RAG 通常无)。
- ☐ 六项控制端到端验证:空气隔离或出站白名单、RBAC、审计日志、加密、血缘、删除路径。
- ☐ 出站抓包 在 24 小时浸泡测试中干净;每次应用更新后重做。
- ☐ 身份提供者集成 用每个访问层的真实用户测试通过;敏感集合访问需独立提权。
- ☐ 备份已生成、恢复已实测 — 在隔离硬件上真实测试,不是只看状态面板。
- ☐ 被遗忘权剧本演练 — 用合成数据覆盖源系统、向量索引、缓存嵌入与检索日志保留。
- ☐ 欧盟 AI 法案分级 已确认(有限风险 vs 高风险);高风险则技术档案就位。
- ☐ 供应商合同(如有)已审阅:DPA 符合第 28 条、列出子处理者、含覆盖客户数据的"不训练"条款。
- ☐ 职工委员会协议 在涉及员工撰写内容时已就绪(德国;其他欧盟国家有相似规则)。
- ☐ 透明度通知 用面向用户的语言说明 AI 辅助、人在回路与数据流。
- ☐ 应急响应剧本 已更新,覆盖 RAG 特有场景:索引泄露、日志篡改、删除失败、模型替换破坏下游血缘。
- ☐ 季度访问评审 已排期与指派;上线前完成首次评审。
- ☐ 年度 DPIA 复评 已排期,并绑定到变更管理流程。
常见错误
- 错误 1:把"本地"等同于"合规"。 本地解决传输与处理者问题,但解决不了合法性基础、DPIA、审计日志或数据主体权。合规是分层项目,不是一个部署选择。
- 错误 2:因为"只是搜索工具"就跳过 DPIA。 大规模摄入特殊类别数据的搜索工具正是第 35 条所覆盖。跳过 DPIA 等于跳过审计辩护。
- 错误 3:未审合法性基础就记录查询文本。 当查询提及个体时,查询本身就是个人数据。设计阶段决定处理目的是否覆盖查询日志;不覆盖则只记哈希与元数据。
- 错误 4:删除剧本里漏掉缓存嵌入。 源端删除可行;向量索引重建可行。平台为性能加的缓存层、检索日志中的嵌入指纹、聊天库中的回答历史 — 这些是被忽略之处。
- 错误 5:允许高权限用户绕过集合 ACL。 "管理员能看到一切"既方便又常见;也是审计失败最大的单一原因。特权访问本身必须受访问控制、限时与按使用合理化。
- 错误 6:一个工作区复用于多个案件或客户。 引用与上下文交叉污染在外人尚未看到时就已是保密失败。一个集合一个案件或客户;ACL 分离;保留分离。
- 错误 7:买了空气隔离,却把私人手机插上来测试。 空气隔离边界必须包含能跨越它的人。终端策略是控制的一部分,不是单独议题。
- 错误 8:把模型与嵌入器选择当成"一次到位"。 每次升级都是带 DPIA、血缘与审计影响的变更管理事件。在首次生产部署前规划升级流程。
引用来源
- GDPR 全文(官方) — 通用数据保护条例完整条文,含逐条注释。
- 欧盟 AI 法案全文 — 含风险分级框架的完整法规文本。
- NIST AI 风险管理框架 — 适用于 AI 风险评估的美国联邦治理框架。
- BDSG-Neu(德国联邦数据保护法) — 在 GDPR 基础上叠加行业规则的德国实施法。
- EDPB DPIA 指南 — 欧洲数据保护委员会关于何时与如何开展 DPIA 的指引。
- 中国《数据安全法》(2021) — 全国人大常委会关于数据安全的基础法律,含重要数据保护与跨境传输规定。
常见问题
在本地运行 RAG 是否自动满足 GDPR?
不会。本地托管解决跨境传输并缩短处理者清单,但 GDPR 第 5 条原则(合法、公平、透明、目的限制、数据最小化、准确性、存储限制、完整性与保密性、问责)仍然适用。第 25 条(设计与默认的数据保护)、第 30 条(处理活动记录)、第 32 条(处理安全性)和第 35 条(DPIA)无论模型在哪里运行都适用。本地 RAG 是稳固起点,不是已完工的合规姿态。
本地 RAG 部署的欧盟 AI 法案合规需要什么?
把用例归类为有限风险或高风险。多数检索助手部署属于有限风险,需透明义务:用户须知正在与 AI 交互、生成内容须可识别。一旦检索喂给已列举领域(信用、招聘、教育、公共服务、执法、移民、司法、生物特征、关键基础设施)的自动决策,部署即为高风险,需履行完整义务:风险管理体系、数据治理、技术文档、自动事件日志、透明度、人工监督、准确性与稳健性、合规评估、上市后监测。
我需要为本地 RAG 做 DPIA 吗?
第 35 条 DPIA 在可能给数据主体带来高风险的处理上是强制的 — 包括大规模处理特殊类别数据(健康、法律、生物特征、种族、政治、宗教、工会)以及有法律效力的系统性画像。多数受监管的本地 RAG(法务、医疗、金融、HR 调查)在范围内。尽早启动 DPIA、把它视作设计文档、并在上线前演练缓解措施 — 尤其是删除剧本。
本地 RAG 部署能否跨部门共享?
可以,但需谨慎。集合级访问控制、对单一身份提供者的按用户认证、为每个部门用途明确合法性基础 — 这是底线。DPIA 须覆盖最广的处理目的;若某部门需另一种合法性基础(如 HR 调查走正当利益、临床人员走公共任务),分集合分访问群组比单集合配复杂 ACL 更易守。
如何审计谁访问了哪份文档?
记录每次检索的用户 ID、时间戳、检索到的分块 ID 与其来源文档 ID。把事件转发到与应用服务器不同管理员管控、写入受限的独立日志库(职责分离)。使用仅追加存储与哈希链使篡改可检测。保留期与监管机构调查窗口及行业规则对齐 — 受监管行业常见 6–7 年。
开源嵌入模型用得是否符合 GDPR?
原则上可以,需三个条件。第一,权重一次性下载并固定哈希,可证明运行中是什么。第二,推理完全本地、无遥测或出站调用 — 用抓包验证,不要只信文档。第三,审阅模型卡与许可,排除与机密业务用途冲突的条款(部分 open-weight 许可对数据类型或用例附加限制)。受监管部署的实用默认是把白名单收敛到少数已审核嵌入器,并在每次升级时重新审核。
AI 生成输出的数据血缘怎么处理?
每条生成回答必须引用产出它的分块 ID、模型标识、提示模板版本与时间戳。分块再解析到文档 ID,文档 ID 再解析到源文档。这条链让您能验证回答、在质询下辩护、履行删除请求并稍后重现结果。没有它,"AI 这么说"就成为审计辩护 — 而那不是辩护。
可以用本地 RAG 处理客户机密文档吗?
常常可以,有时不能。许多外部律师协议、并购 NDA 与患者数据合同允许在数据不离开既定边界并满足某些控制时进行 AI 辅助评审。本地 RAG 通过架构满足边界要求;合同特定的控制清单(加密、访问、审计、保留、泄露通知)仍须遵守。当合同完全禁止 AI 处理时,任何部署模式都修不了 — 禁止令对本地或远程 AI 同样适用。
为合规需要什么样的日志?
入库事件(文档 ID、哈希、来源、上传者、时间戳、分类)、检索事件(用户 ID、查询元数据或哈希、分块 ID、回答引用、模型/嵌入器标识)、管理事件(模型晋升、嵌入器变更、ACL 变更、用户/群组变更)与运维事件(备份、恢复、密钥轮换)。所有事件转发到独立日志库、仅追加、哈希链化,并按案件与行业要求保留。
如何在 RAG 中处理被遗忘权请求?
用一份贯穿各层的文档化剧本:源文档库、向量索引、缓存嵌入、检索日志保留(合法性基础允许删除日志条目时)以及聊天历史中的所有回答。源端删除直接;向量索引重建已被理解;缓存嵌入与回答历史是多数部署遗漏之处。用合成数据演练剧本、记录演练,并把剧本绑定到应急响应流程,让真实请求触发已演练序列、而非临场发挥。
使用本地 RAG 需要遵守中国《数据安全法》和《个人信息保护法》吗?
需要,且本地 RAG 在结构上对二者尤为友好。《数据安全法》(2021) 第 21 条建立数据分类分级制度,要求对"重要数据"采取强化保护;第 31 条规定"重要数据"的境内存储原则;跨境传输须经安全评估。《个人信息保护法》(PIPL) 第 38–40 条对个人信息出境提出严格条件(安全评估、认证或标准合同备案)。本地 RAG 把模型推理与向量库都留在境内基础设施上,从架构层面满足"重要数据存储于境内"与"避免不必要跨境传输"的原则。落地建议:(1) 完成数据分类分级,将敏感个人信息(如医疗、金融、生物识别)和重要数据明确标记并隔离;(2) 部署符合等级保护 2.0 的安全控制(金融、医疗、政府场景通常对应三级,关键信息基础设施可能对应四级);(3) 与个人信息保护影响评估(PIPIA)联动 — 类似 DPIA,须在处理特殊类型个人信息或自动化决策前完成;(4) 对接 CAC(国家网信办)的合规框架,包括关键信息基础设施识别、年度风险评估、跨境数据出境申报;(5) 文档语言以中文为主,关键告知与同意条款须本地化;(6) 与 GDPR 并行时,取两者中更严格的要求作为统一基线,可同时满足中国与欧盟监管诉求。
本地推理如何满足中国大型企业的合规要求?
中国大型企业的合规要求通常涵盖三层:法律合规(数据安全法、PIPL、网络安全法、行业监管)、技术合规(等保 2.0、密评、信创要求)以及行业合规(金融业的 JR/T 0223、医疗业的 HIE 标准、央国企的国产化目录)。本地 RAG 部署的典型落地路径:(1) 硬件 — 优先选用国产 GPU(华为昇腾、海光、寒武纪等)或合规进口 GPU,部署在境内 IDC 或私有云;金融/政务客户通常要求双活或异地灾备;(2) 模型 — 选用国产开源模型(Qwen、DeepSeek、ChatGLM、Yi、Baichuan 等系列)或经过备案的境内模型,避免使用未备案的境外模型;(3) 身份与访问 — 对接企业现有 OIDC/SAML 身份源(华为云 IAM、腾讯云 CAM、阿里云 RAM 等),强制 MFA,敏感集合走二次审批;(4) 网络 — 私有 VLAN、白名单出站、对接企业 SOC 与 SIEM(如奇安信、深信服、绿盟);(5) 审计与日志 — 满足等保 2.0 6 个月日志保留最低要求,敏感行业通常 1–3 年;与 SOC 联动实时告警;(6) 行业特定 — 金融场景遵循"两地三中心"灾备、JR/T 0223 加密评估,医疗场景遵循《医疗机构网络安全管理办法》与三级等保,央国企遵循信创化和国密算法(SM2/SM3/SM4)要求;(7) 数据出境 — 若涉及跨境业务,对接国家网信办申报通道,签订标准合同或申请安全评估。典型大型企业项目周期为 12–20 周,从基础设施选型、模型适配、安全集成、合规备案到上线试运行,比纯云方案的 2–4 周显著长,但拿到的是可通过监管审计与等保测评的稳定架构。