Key Takeaways
- La API de DeepSeek tiene el mayor riesgo RGPD de todos los LLMs importantes: los servidores están sujetos a la ley china de acceso a datos (PIPL), no existe decisión de adecuación UE-China, y los ToS permiten explícitamente compartir datos con las autoridades chinas
- Qwen 2.5 14B y Llama 4 Scout ejecutados localmente son los de menor riesgo: sin transferencia según el Artículo 44, sin SCC requerida, los datos permanecen en tu hardware
- Las API de Claude y GPT-5.5 Instant tienen riesgo medio: la jurisdicción estadounidense requiere Cláusulas Contractuales Estándar más Evaluación de Impacto de Transferencia; las opciones de residencia de datos en la UE (Claude EU) reducen el riesgo
- Stacks recomendados: startups (Claude + SCC), organizaciones con datos sensibles (Qwen 24 GB local), empresas (Qwen multi-GPU + air-gap)
- La matriz de decisión de riesgo cubre cinco vectores: residencia de datos, jurisdicción de datos de entrenamiento, retención de datos en ToS, requisito SCC y veredicto legal
Cuatro vectores de riesgo RGPD para LLMs
No todos los despliegues de LLM conllevan el mismo riesgo RGPD. El riesgo legal y operativo de usar un LLM está determinado por cuatro factores independientes:
Matriz de riesgo: comparación modelo por modelo
La siguiente tabla resume el perfil de riesgo RGPD de cada opción de despliegue. Una puntuación más alta indica mayor riesgo legal y operativo.
Veredicto por modelo y uso recomendado
Usa esta sección para entender cuándo es apropiado cada despliegue según tu postura de cumplimiento RGPD.
Stack recomendado según el tipo de organización
El stack de LLM adecuado depende de la sensibilidad de datos de tu organización, el presupuesto y la postura regulatoria. Usa estas recomendaciones como punto de partida para las decisiones de adquisición.
¿Es DeepSeek conforme al RGPD si lo uso con una SCC?
No. Las SCCs por sí solas no satisfacen las transferencias del Artículo 44 del RGPD a China continental porque: (1) no existe decisión de adecuación UE-China tras Schrems II; (2) la ley china (PIPL) obliga a las empresas a compartir datos con las autoridades estatales bajo petición, lo que las SCCs no pueden anular; (3) Anthropic, OpenAI y otros grandes proveedores no ofrecen ejecución de SCCs en China y se niegan a operar allí. Para cualquier dato personal de residentes en la UE — o bajo leyes latinoamericanas equivalentes como la LFPDPPP (México), la Ley 25.326 (Argentina) o la Ley 1581 (Colombia) — no uses la API de DeepSeek. Si necesitas DeepSeek, usa los pesos locales (ejecuta `ollama run deepseek-coder:latest` en tu hardware).
¿El uso de Claude EU con SCC satisface el RGPD?
En su mayor parte sí, con matices. Claude EU mantiene tus datos en Irlanda o Alemania durante el procesamiento y los elimina en 30 días. Anthropic ha publicado una DPA conforme al RGPD y SCCs. Sin embargo, los modelos Claude fueron entrenados con datos en EE. UU., y Anthropic es una empresa estadounidense, por lo que técnicamente sigue existiendo una "transferencia" en forma de entrenamiento del modelo y relación con el proveedor. Para el cumplimiento práctico, Claude EU + SCC es aceptable para la mayoría de las organizaciones. Para la postura más sólida (sin ningún riesgo de transferencia), usa Qwen o Llama local.
¿Puedo usar Llama 4 Scout como sustituto directo de Claude?
Para el cumplimiento RGPD: sí. Llama 4 Scout es de código abierto y puede ejecutarse localmente, por lo que satisface plenamente los Artículos 44, 25 y 32. Para capacidad y rendimiento: quizás. Llama 4 Scout es más pequeño (8 GB VRAM) que Claude (que es propietario y muy grande), por lo que es más rápido y barato de ejecutar localmente, pero puede ser menos capaz en algunos benchmarks. Pruébalo en tu carga de trabajo primero. Para Q&A simple, resumen y tareas de código, Llama 4 Scout es competitivo. Para razonamiento muy complejo, Claude sigue siendo mejor, pero Qwen 2.5 14B local o Llama 3.2 70B pueden manejar la mayoría de las tareas empresariales.
¿Qué ocurre si registro mis prompts localmente con fines de auditoría?
Se recomienda el registro para el cumplimiento del Artículo 30. Registra lo siguiente: nombre del modelo, marca de tiempo de la sesión, recuento de tokens de entrada, recuento de tokens de salida y un hash SHA-256 del prompt y la respuesta. NO registres el texto sin formato de los prompts que contengan datos personales. El registro basado en hash satisface el Artículo 30 (registros de procesamiento) y el Artículo 32 (seguridad) sin violar el Artículo 5(1)(e) (limitación del almacenamiento). Almacena los logs en un sistema cifrado con control de acceso (por ejemplo, servidor de agregación de logs con acceso basado en roles). Retén los logs durante 3 años según el estándar DPA.
¿Es más caro ejecutar un LLM on-prem que usar APIs en la nube?
Por adelantado: sí. El hardware (RTX 4070 Ti) cuesta ~$500–1000. Mensualmente: no. La electricidad on-prem es de ~$5–10/mes. Las API en la nube cuestan $0,001–0,01 por 1K tokens, lo que para un uso intensivo (>1M tokens/mes) supera los $100. El punto de equilibrio suele ser de 6–12 meses para uso medio-alto. Si ejecutas <100K tokens/mes, las API en la nube son más baratas. Si ejecutas >1M tokens/mes, el on-prem es más barato. El cumplimiento RGPD es un argumento empresarial adicional: el on-prem elimina el costo legal de SCC/TIA.