Key Takeaways
- A API da DeepSeek tem o maior risco de GDPR entre todos os principais LLMs: os servidores estão sujeitos à lei chinesa de acesso a dados (PIPL), não existe decisão de adequação UE-China, e os ToS permitem explicitamente compartilhar dados com as autoridades chinesas
- Qwen 3 14B e Llama 4 Scout executados localmente têm o menor risco: sem transferência segundo o Artigo 44, sem SCC exigida, os dados permanecem no seu hardware
- As APIs de Claude e GPT-5.5 Instant têm risco médio: a jurisdição dos EUA exige Cláusulas Contratuais Padrão mais Avaliação de Impacto da Transferência; as opções de residência de dados na UE (Claude EU) reduzem o risco
- Stacks recomendados: startups (Claude + SCC), organizações com dados sensíveis (Qwen 24 GB local), empresas (Qwen multi-GPU + air-gap)
- A matriz de decisão de risco cobre cinco vetores: residência de dados, jurisdição dos dados de treinamento, retenção de dados nos ToS, exigência de SCC e veredito jurídico
Quatro vetores de risco GDPR para LLMs
Nem toda implantação de LLM carrega o mesmo risco de GDPR. O risco jurídico e operacional de usar um LLM é determinado por quatro fatores independentes:
Matriz de risco: comparação modelo a modelo
A tabela abaixo resume o perfil de risco de GDPR de cada opção de implantação. Pontuações mais altas indicam maior risco jurídico e operacional.
| Implantação | Residência de dados | Jurisdição dos dados de treinamento | Risco de retenção nos ToS | SCC / TIA exigida? | Nível de risco geral |
|---|---|---|---|---|---|
| DeepSeek API | China (Alibaba Cloud) | China (PIPL) | Reserva-se explicitamente o direito de compartilhar dados com as autoridades | Sim, mas ineficaz (sem adequação UE-China) | 🔴 Maior |
| Claude API (EUA) | EUA (Virgínia) | EUA | A Anthropic se compromete a excluir os dados mediante solicitação; retenção padrão de 30 dias | Sim, exige SCC + TIA | 🟠 Médio-alto |
| GPT-5.5 (EUA) | EUA (várias regiões) | EUA | A OpenAI pode reter para melhoria do modelo; política opaca | Sim, exige SCC + TIA | 🟠 Médio-alto |
| Claude (residência de dados na UE) | UE (Irlanda ou Alemanha) | EUA (Anthropic), dados permanecem na UE | A Anthropic se compromete com residência apenas na UE + conformidade com GDPR | Sim, SCC adequada por processamento na UE | 🟡 Médio |
| Llama 4 Scout (local) | Seu hardware (LAN) | Código aberto, sem retenção comercial | Você controla a retenção apenas via logs locais | Não | 🟢 Menor |
| Qwen 3 14B (local) | Seu hardware (LAN) | Código aberto (Apache 2.0), sem retenção comercial | Você controla a retenção apenas via logs locais | Não | 🟢 Menor |
Veredito por modelo e uso recomendado
Use esta seção para entender quando cada implantação é apropriada para a sua postura de conformidade com GDPR.
Stack recomendado por tipo de organização
O stack de LLM ideal depende da sensibilidade de dados da sua organização, do orçamento e da postura regulatória. Use estas recomendações como ponto de partida para decisões de compra.
A DeepSeek está em conformidade com o GDPR se eu a usar com uma SCC?
Não. As SCCs por si só não satisfazem as transferências do Artigo 44 do GDPR para a China continental porque: (1) não existe decisão de adequação UE-China após Schrems II; (2) a lei chinesa (PIPL) obriga as empresas a compartilhar dados com as autoridades estatais mediante solicitação, o que as SCCs não podem anular; (3) Anthropic, OpenAI e outros grandes fornecedores não oferecem execução de SCCs na China — eles se recusam a operar lá. Para quaisquer dados pessoais de residentes na UE — ou sob a LGPD brasileira (Lei nº 13.709/2018) — não use a API da DeepSeek. Se você precisa da DeepSeek, use os pesos locais (execute `ollama run deepseek-coder:latest` no seu hardware).
Usar o Claude EU com SCC satisfaz o GDPR?
Em grande parte sim, com ressalvas. O Claude EU mantém seus dados na Irlanda ou na Alemanha durante o processamento e os exclui em 30 dias. A Anthropic publicou um DPA e SCCs em conformidade com o GDPR. Porém, os modelos Claude foram treinados com dados nos EUA, e a Anthropic é uma empresa americana, então tecnicamente ainda existe uma "transferência" na forma de treinamento do modelo e relação com o fornecedor. Para conformidade prática, o Claude EU + SCC é aceitável para a maioria das organizações. Para a postura mais sólida (sem nenhum risco de transferência), use Qwen ou Llama local.
Posso usar o Llama 4 Scout como substituto direto do Claude?
Para conformidade com GDPR: sim. O Llama 4 Scout é de código aberto e pode rodar localmente, então satisfaz plenamente os Artigos 44, 25 e 32. Para capacidade e desempenho: talvez. O Llama 4 Scout é menor (8 GB de VRAM) que o Claude (proprietário e muito grande), então é mais rápido e barato de rodar localmente, mas pode ser menos capaz em alguns benchmarks. Teste na sua carga de trabalho primeiro. Para Q&A simples, resumo e tarefas de código, o Llama 4 Scout é competitivo. Para raciocínio muito complexo, o Claude ainda é melhor, mas o Qwen 3 14B local ou o Llama 3.2 70B dão conta da maioria das tarefas empresariais.
O que acontece se eu registrar meus prompts localmente para fins de auditoria?
O registro é incentivado para a conformidade com o Artigo 30. Registre o seguinte: nome do modelo, carimbo de data/hora da sessão, contagem de tokens de entrada, contagem de tokens de saída e um hash SHA-256 do prompt e da resposta. NÃO registre o texto bruto de prompts que contenham dados pessoais. O registro baseado em hash satisfaz o Artigo 30 (registros de processamento) e o Artigo 32 (segurança) sem violar o Artigo 5(1)(e) (limitação de armazenamento). Armazene os logs em um sistema criptografado com controle de acesso (por exemplo, servidor de agregação de logs com acesso baseado em papéis). Retenha os logs por 3 anos, conforme o padrão de DPA.
Rodar um LLM on-premise é mais caro que usar APIs em nuvem?
No investimento inicial: sim. O hardware (RTX 4070 Ti) custa ~R$ 4.500–6.500 no varejo brasileiro. Mensalmente: não. A eletricidade on-premise é de ~R$ 50–90/mês. As APIs em nuvem custam US$ 0,001–0,01 por 1K tokens (cobradas em dólar), o que para uso intenso (>1M tokens/mês) ultrapassa US$ 100. O ponto de equilíbrio costuma ser de 6–12 meses para uso médio a alto. Se você roda <100K tokens/mês, as APIs em nuvem são mais baratas. Se roda >1M tokens/mês, o on-premise é mais barato. A conformidade com GDPR/LGPD é um argumento de negócio adicional: o on-premise elimina o custo jurídico de SCC/TIA.