关键要点
- 个人数据(医疗、金融): 数据无法离开您的控制。在隔离网络上的本地LLM、加密存储、访问日志。
- 支付卡数据: 永远不要将卡号输入LLM。PCI-DSS禁止。仅用于分析,仅最后4位。
- 法律特权: 特权文件无法离开律师的管理。网络隔离机器、仅纸质输出。
- 设置: Linux服务器上的Ollama或vLLM隔离、加密文件系统(LUKS)、审计日志(ELK)、无互联网。成本:3000-5000美元硬件+2000美元/年更新。
- 中国数据法: 《数据安全法》、《个人信息保护法》要求数据本地存储。本地推理 = 完全合规。
- vs 云API: 云端 = 供应商控制数据+违反责任。本地 = 您控制+零风险。
为什么本地LLM用于合规性
云API(ChatGPT、Claude、Gemini)无法用于受监管数据:
- 向云传输数据 = 机密性违反(GDPR、法律特权)。
- 无"私人模式"。数据最终训练模型(供应商ToS允许)。
- 供应商锁定:供应商违反或关闭,您失去数据+合规地位。
本地LLM保证:
- 零数据流出(网络隔离 = 无云)。
- 审计线索(每个访问都被记录、加密签名、不可变)。
- 控制(您拥有数据、加密密钥和整个堆栈)。
- 成本可预测性(初始5000美元硬件投资后无每令牌费用)。
数据保护法准则设置
个人数据无法由不可信系统处理。GDPR/中国《数据安全法》要求适当的安全措施。
- 1隔离服务器: 专用Linux机器(无共享资源)、无互联网、用于数据传输的加密USB。
- 2加密存储: 全磁盘加密LUKS、AES-256、密码保护。防止硬件被盗时的数据泄露。
- 3网络隔离: 专用VLAN或完全网络隔离。仅通过MFA的VPN或物理终端访问。
- 4审计日志: 每个LLM查询记录:时间戳、用户ID、文档哈希(非纯文本)、响应长度、使用的模型。日志存储在分离的加密syslog服务器上。
- 5访问控制: 基于角色(医生vs管理员vs研究人员)。MFA登录。无共享密码。退职时禁用帐户。
- 6保留政策: 6年后删除推理日志。符合中国数据保留要求的自动清除脚本。
- 7数据处理合同(DPA): 仅适用于供应商。开源模型(Llama、Mistral)需要内部合规文档。
- 8年度渗透测试: 第三方安全审计验证无数据泄露、无默认凭据、无未修补漏洞。
金融安全设置(PCI-DSS)
支付卡数据(主帐号 = PAN)无法由LLM处理。PCI-DSS v4.0需要12项核心要求。
- 1永远不要将完整卡号输入LLM。 PCI-DSS完全禁止。仅使用最后4位、无有效期。
- 2静态和传输中加密: AES-256加密文件、网络用TLS 1.3。所有支付数据在离开终端前加密。
- 3网络分割: 隔离VLAN上带防火墙规则的LLM服务器。无互联网访问、无企业网络访问。
- 4硬件安全模块(HSM): 在防篡改设备中存储加密密钥(Thales、Yubico HSM)。与LLM服务器分离。
- 5日志和监控: 文件访问、登录尝试、数据渗出的实时警报。SIEM集成(Splunk、ELK)。
- 6季度合规扫描: 自动PCI-DSS扫描漏洞(Qualys、Nessus、Rapid7)。30天内补救。
- 7供应商文档: 模型提供者(Ollama、vLLM)不是支付处理器、不是PCI供应商。您的本地部署在范围内。
网络隔离部署
最安全的选项:机器没有网络连接(Faraday笼级隔离)。
- 1物理隔离: 锁定房间的服务器(物理访问控制)、无以太网电缆、BIOS禁用WiFi、蓝牙禁用。
- 2模型加载: 预先在连接的机器上下载模型(从HuggingFace下载)、通过加密USB传输(GPG、AES-256加密)。
- 3数据传入: 用户通过加密USB传输文档(GPG或7z加密)。在隔离机器上分析USB恶意软件。
- 4推论: 本地运行LLM(Ollama、vLLM)、输出保存到USB。无网络调用、无外部API访问。
- 5数据传出: 加密USB返回给用户、在分离的非敏感机器上解密。原始加密USB在解密验证后销毁。
- 6权衡: 延迟(USB手动传输需要几分钟)vs绝对安全(零网络风险、零远程违反可能性)。
- 7用例: 法律发现(律师审查)、医疗图像分析、金融模型训练(1小时延迟时可接受的批处理)。
EU/GDPR/AI法合规性
EU数据保护法(GDPR、EU AI法2024/1689)要求明确的安全和风险评估。
- 1GDPR第32条(安全性): 确保适当的加密、假名化、机密性、完整性、弹性。本地LLM默认满足这一点(无云传输=无风险)。
- 2GDPR第35条(数据保护影响评估): 高风险处理需要。文档:数据类型(医疗、金融)、保留期(6年)、访问控制、违反场景。本地LLM=低风险(包含)。
- 3GDPR第17条(被遗忘的权利): 本地日志必须按请求清除。实现自动匿名化脚本(删除用户ID、文档哈希)。
- 4EU AI法2024/1689(高风险系统): 分类取决于用例。医疗诊断=高风险(需要可解释性)。法律文件审查=中风险(需要审计线索)。实现风险评估、人类审查流程。
- 5DPIA(数据保护影响评估): 部署前必须。文档:处理目的(诊断、审查)、数据类别(医疗记录、合同)、第三方(无)、保留期(6年)、保护措施(加密、访问日志)。
- 6中国数据法: 根据《数据安全法》(2021年)、《个人信息保护法》,个人和商业敏感数据必须存储在中国境内。本地推理=完全合规。
推荐模型和硬件规模
根据合规要求和基础设施规模选择模型。
| 用例 | 模型 | VRAM | 硬件 | 原因 |
|---|---|---|---|---|
| 文件审查(法律) | LLaMA 4 Scout (7B) | 8-12 GB | RTX 4060 / M4 Max | 快速准确的法律推理、小占用空间 |
| 医疗记录(GDPR) | Mistral Large (34B) | 32-40 GB | RTX 4090 / A100 (40GB) | 高精度、医学知识、符合GDPR |
| 财务分析(PCI) | Llama 3.1 70B | 70-80 GB | A100 (80GB) / H100 | 财务推理、合规审计线索 |
| 小团队(<10) | Mistral 7B Instruct | 8-16 GB | M3/M4 Pro 或 RTX 4070 | 经济高效、基本文件处理足够 |
本地LLM vs 云API比较
部署模型的直接比较。
| 因素 | 本地LLM | 云API |
|---|---|---|
| 数据安全性 | 零流出。数据保留在本地。静态和传输中加密。 | 数据发送到供应商服务器。供应商可用于训练(ToS允许)。供应商违反责任。 |
| 合规性 | GDPR/PCI/法律特权合规。审计日志由您控制。DPIA必需但低风险。 | 不符合法规。供应商是处理者、您承担法律责任。 |
| 成本 | 3000-5000美元初始硬件。0-500美元/年维护。可预测。 | 0美元初始。500000美元+/年大规模(令牌×2026价格)。不可预测。 |
| 违反责任 | 0美元(数据从不离开您的控制)。保险不需要。 | 50000-5000000美元(供应商违反=您对GDPR/HIPAA下第三方负责)。 |
审计和数据治理
记录内容: 每个LLM查询(时间戳、用户、查询哈希、响应长度、模型版本)、文件访问(打开/读取/修改)、登录/注销(IP、MFA状态)。
存储位置: 加密syslog服务器、物理分离于LLM服务器。防止数据违反危害日志。
防篡改: 日志的加密签名(SHA-256、用管理密钥签名)。无法在不破坏信任链的情况下删除。实现仅附加存储。
工具: ELK Stack(Elasticsearch/Logstash/Kibana)用于聚合和搜索;Splunk用于企业(60天保留标准)。
保留政策: GDPR=被遗忘的权利(6个月后匿名化)、PCI-DSS=1年。用加密验证自动清除。
月度合规审查: 日志审查(5%抽查)。季度数据系统审计(追踪查询回源)。年度第三方评估(渗透测试、日志验证)。
常见合规失败
- 对敏感数据使用云ChatGPT。 GDPR/中国法律即时违反。罚款:事件10000-50000美元(年最多1500000美元)。例:医疗团队使用ChatGPT起草出院摘要(个人数据泄露)。
- 未锁定门的隔离服务器。 任何人都能进入=物理安全=零。例:合规审计人员在可公开访问的服务器室中发现LLM服务器(无徽章访问控制)。
- 日志与数据存储在同一服务器。 日志违反=审计线索违反。需要分离系统。例:勒索软件加密数据和日志、审计线索被摧毁。
- 传输中不加密数据。 共享网络上的未加密USB传输。数据包分析器攻击捕获医疗记录。使用GPG加密文件、验证校验和。
- 与开源模型的DPA。 开源模型(Llama、Mistral)没有供应商签署DPA。相反:内部文档合规(审计日志、风险评估、DPIA)。DPA仅用于供应商。
- 没有保留政策。 GDPR需要6年后删除(被遗忘的权利)。不删除=违反。实现自动删除日志的脚本,带加密证明。
常见问题
如果我匿名化数据,我可以使用云LLM吗?
不。匿名化的数据仍然受监管。GDPR/中国数据法禁止传输到任何供应商、包括云API。匿名化不会将数据从供应商的控制中删除。仅使用本地LLM。
我需要与Llama或Mistral模型签署DPA吗?
不。开源模型没有供应商签署DPA。相反:内部文档您的合规:风险评估、处理过程、审计日志、保留政策。DPA仅在使用供应商(OpenAI、Anthropic、Google)时需要。
对于GDPR来说网络隔离部署过度吗?
如果数据非常敏感(遗传学、精神病学记录)则不过度。根据判例法的最佳实践。对于不太敏感的数据(基本咨询),VPN保护的本地部署可接受,每月审计。
我如何安全处理员工终止?
立即禁用VPN访问。审计该用户过去6个月的所有LLM查询(合规要求)。验证未导出机密数据。归档日志(只读)6年(GDPR保留)。从访问控制列表中删除用户。
我可以将本地LLM用于法律发现吗?
可以。网络隔离+律师监督维持律师保密特权(无第三方访问)。文档:管理链、处理程序、访问日志。满足电子发现要求。
本地服务器违反时会怎样?
静态加密=损伤限制(攻击者无法读取数据)。审计日志显示访问内容(仅受影响的查询)。30天内通知受影响方(GDPR要求)。事件响应:隔离服务器、法医学、更新密码、渗透测试。
本地推理比云API慢吗?
延迟略高(200毫秒本地vs 50毫秒云)、吞吐量可比较。批处理(法律审查、医疗图像分析)无实际差异。实时聊天对大多数用例可接受。
我可以在推论后将本地LLM输出存储在云中吗?
仅端到端加密(您持有加密密钥、云提供商无法访问纯文本)。推荐:本地存储、备份到加密云存储(AWS S3服务器端加密)。遵守数据驻留要求(中国=数据留在中国)。
信息源
- 一般数据保护条例(GDPR)、第32、33、35条(欧盟、2016)
- 数据保护法(GDPR)–第17条:被遗忘的权利(欧盟)
- PCI数据安全标准v4.0(PCI安全标准委员会、2022)–支付卡数据处理
- 指令(EU)2024/1689 - AI法(欧盟、2024)–高风险AI系统治理
- 中华人民共和国《数据安全法》(2021年)–个人和商业数据保护
- 中华人民共和国《个人信息保护法》(2021年)–个人数据隐私权