¿Qué es un LLM de código abierto?
📍 In One Sentence
Open-weights significa que los parámetros del modelo son descargables pero pueden estar restringidos por la licencia; open-source significa disponibilidad sin restricciones del código bajo licencias compatibles con OSI.
"Código abierto" y "open-weights" no son sinónimos. Las licencias de código abierto (Apache 2.0, MIT, GPL) aplican al código fuente y permiten uso comercial y privado sin restricciones. Open-weights significa que los pesos del modelo entrenado son descargables pero pueden estar restringidos bajo una licencia especializada. LLaMA 3.1 es open-weights, no open-source — Meta publica los pesos bajo la Licencia Comunitaria Llama 2.1, que permite uso comercial pero incluye restricciones.
Los modelos propietarios no son ni open-weights ni open-source. OpenAI (GPT-4o), Anthropic (Claude Opus 4.7) y Google (Gemini 3.1 Pro) no publican los pesos del modelo. Los accedes exclusivamente vía API.
Entender esta distinción importa para el cumplimiento, la personalización y la soberanía de datos.
¿Qué es un LLM propietario?
Los LLMs propietarios son modelos cerrados accesibles solo vía API — el proveedor controla los pesos, los datos de entrenamiento, la alineación de seguridad y todas las actualizaciones. OpenAI (GPT-4o), Anthropic (Claude Opus 4.7), Google (Gemini 3.1 Pro) y Mistral API son propietarios.
Los precios son facturación por token en API en un servidor controlado por el proveedor. GPT-4o cuesta $5 por 1M tokens de entrada y $30 por 1M tokens de salida. Claude Opus 4.7 cuesta $5/$25. Gemini 3.1 Pro cuesta $2,00/$12,00.
Los proveedores propietarios mantienen el control sobre las actualizaciones del modelo, el comportamiento y la alineación.
🔍 Consejo pro
Los precios de las APIs propietarias pueden sorprenderte. Configura alertas de monitoreo de costos en los paneles de OpenAI o Anthropic para evitar facturas desbordadas de agentes de larga duración o inferencia de alto volumen.
Conceptos clave y definiciones
💬 In Plain Terms
Piensa en los modelos open-weights como software de código abierto que puedes descargar y modificar; los modelos propietarios son como SaaS que solo puedes usar a través del sitio web de un proveedor.
Modelo Open-Weights. Un LLM cuyos pesos entrenados son públicamente disponibles y pueden descargarse, modificarse, ajustarse y auto-alojarse. Ejemplos: LLaMA 4 Scout/Maverick (Meta), Mistral Large 2 (Mistral AI), Qwen 2.5 (Alibaba), DeepSeek-R1 (DeepSeek AI).
LLM Propietario. Un LLM cuyos pesos se mantienen privados y nunca se publican. El acceso es exclusivamente a través de la API de un proveedor, requiriendo facturación por token y conectividad de red. Ejemplos: GPT-4o (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3.1 Pro (Google).
Fine-Tuning. El proceso de reentrenar un modelo preentrenado en un nuevo conjunto de datos más pequeño específico para un dominio o tarea. Los modelos open-weights soportan fine-tuning completo vía LoRA, QLoRA o retropropagación completa; la mayoría de los modelos propietarios restringen o prohíben el fine-tuning.
Fecha de corte de entrenamiento. La fecha después de la cual un modelo no tiene conocimiento de eventos o información.
Mixture of Experts (MoE). Una arquitectura LLM donde el modelo contiene muchas sub-redes "expertas", pero solo una fracción se activa por token. LLaMA 4 Scout y Mistral usan MoE — el costo de inferencia escala con los parámetros activos, no los totales.
Pesos del modelo. Los parámetros numéricos (miles de millones a billones de números) aprendidos durante el entrenamiento del modelo.
¿Cuál es la diferencia entre los LLMs de código abierto y los propietarios?
Los LLMs de código abierto (LLaMA 3.1, Mistral, Qwen) hacen que los pesos del modelo estén públicamente disponibles — las organizaciones pueden descargarlos, inspeccionarlos, ajustarlos y auto-alojarlos. Los LLMs propietarios (GPT-4o, Claude, Gemini) son propiedad de los proveedores y solo son accesibles a través de APIs.
¿Son los LLMs de código abierto tan buenos como los modelos propietarios?
En muchas tareas, sí. La brecha de rendimiento se ha reducido a 7–8 puntos porcentuales en benchmarks de razonamiento (MMLU). En clasificación, resumen y tareas específicas de dominio, los modelos open-weights como LLaMA 3.1 70B ahora igualan a los propietarios. Los modelos propietarios aún lideran en razonamiento de múltiples pasos complejo, orquestación de agentes y manejo de entrada multimodal.
¿Cuándo deben las empresas usar LLMs de código abierto?
Las empresas deben usar LLMs de código abierto cuando la privacidad de datos es obligatoria (salud, finanzas, legal), cuando procesan más de 10 millones de tokens por día, cuando se requiere fine-tuning específico del dominio, o cuando el cumplimiento del AI Act de la UE exige residencia de datos on-premises. Los modelos open-weights también eliminan el vendor lock-in y la facturación por token en API.
¿Pueden los LLMs de código abierto reemplazar a los modelos de IA propietarios?
Para muchos casos de uso, sí. Los LLMs de código abierto están listos para producción para clasificación, resumen, extracción y tareas específicas de dominio. Los modelos propietarios mantienen ventajas en razonamiento complejo, entrada multimodal, integración de herramientas y despliegue sin infraestructura.
Open-Weights vs LLMs Propietarios: Comparación en 10 Dimensiones
| Dimensión | Open-Weights | Propietario |
|---|---|---|
| Costo | $0,50–2,00/hr de infraestructura; $0 por token | $0,15–5,00 por 1M tokens de entrada; $0,30–15,00 por 1M tokens de salida |
| Rendimiento | MMLU ~80–82 %; competitivo en tareas específicas | MMLU ~88–90 %; mayor techo en razonamiento |
| Context window | LLaMA 4 Scout 10M, Mistral Large 123K | GPT-4o 128K, Claude 200K, Gemini 3.1 Pro 1M |
| Privacidad | Soberanía completa de datos, cero egreso | Los datos transitan por servidores del proveedor |
| Fine-tuning | LoRA, QLoRA, completo soportado | Limitado (mini de OpenAI) o ninguno (Anthropic) |
| Soberanía de datos | On-premises; cumple AI Act UE, HIPAA, SOX | API dependiente; residencia de datos poco clara |
| Velocidad | A100: 20–30 tokens/seg (70B) | 30–50+ tokens/seg en endpoints optimizados |
| Soporte | Impulsado por la comunidad; sin SLA del proveedor | Soporte del proveedor, SLAs de API, uptime garantizado |
| Actualizaciones | Offline; tú controlas la adopción | Del lado del servidor; el proveedor actualiza automáticamente |
| Vendor lock-in | Cero; despliega donde quieras | Moderado a alto; API y precios bajo control del proveedor |
¿Cuándo elegir open-weights vs propietarios?
Elige open-weights cuando: los datos no pueden salir de tu infraestructura, el volumen diario supera los 10M tokens, necesitas fine-tuning del dominio, o el cumplimiento del AI Act de la UE / HIPAA / SOX requiere residencia de datos on-premises.
Elige propietarios cuando: necesitas máxima precisión sin infraestructura GPU, el volumen está por debajo de 5M tokens/día, no tienes expertise de DevOps, o necesitas inicio rápido sin ingeniería de infraestructura.
Cómo elegir entre LLMs de código abierto y propietarios
- 1Evalúa los requisitos de privacidad de datos: ¿los datos pueden salir de tu infraestructura? Si no, los open-weights son obligatorios.
- 2Calcula el volumen diario de tokens: compara los costos de API con el costo de infraestructura en 1M, 10M y 100M tokens/día.
- 3Evalúa las necesidades de fine-tuning: ¿necesitas especializar el modelo en tu dominio? Los open-weights soportan LoRA/QLoRA; los propietarios no.
- 4Comprueba la preparación de la infraestructura: ¿tienes GPUs, DevOps y cobertura permanente? Si no, los propietarios son la ruta más simple.
- 5Haz benchmarks en tu tarea real: usa PromptQuorum para comparar GPT-4o, Claude y Ollama en tu caso de uso específico.
Lecturas relacionadas
- Técnicas: RAG explicado — Generación Aumentada por Recuperación — Cómo extender cualquier modelo (propietario u open-weights) con conocimiento externo
- Fundamentos: ¿GPT-4o, Claude o Gemini? Cómo elegir el modelo correcto — Comparación detallada de modelos propietarios de frontera
- Fundamentos: Tokens, costos y límites — Análisis detallado de costos y economía de tokens
- Fundamentos: Prompt injection y seguridad — Consideraciones de seguridad para ambas clases de modelos
Preguntas frecuentes
¿LLaMA 3.1 es realmente de código abierto o solo open-weights?
Solo open-weights. LLaMA 3.1 publica los pesos del modelo bajo la Licencia Comunitaria Llama 2.1, que no es compatible con OSI. La licencia permite uso comercial pero incluye restricciones de denominación y requiere atribución.
¿Qué es más barato en 2026 — auto-alojar LLaMA o usar la API de GPT-4o?
Depende del volumen. Por debajo de 5M tokens/día, la API de GPT-4o es más barata. Entre 5–10M tokens/día, los costos se igualan. Por encima de 10M tokens/día, el auto-alojamiento de LLaMA 3.1 gana.
¿El AI Act de la UE afecta a los LLMs de código abierto?
Sí, dependiendo del despliegue. Los sistemas de IA de alto riesgo requieren documentación de riesgos y trazas de auditoría. Los open-weights on-premises facilitan el cumplimiento.
¿Qué LLM de código abierto se acerca más a GPT-4o en 2026?
LLaMA 4 Maverick, DeepSeek-R1 y Mistral Large 2 son los más cercanos. En MMLU, GPT-4o 88,7 % vs open-weights 80–83 %.
¿Puedo hacer fine-tuning de GPT-4o?
No. El fine-tuning de OpenAI solo está disponible para GPT-4o mini. Anthropic no ofrece fine-tuning para Claude. Los open-weights soportan fine-tuning completo vía LoRA, QLoRA o entrenamiento completo.
¿Qué hardware necesito para ejecutar LLaMA 4 localmente?
LLaMA 4 Scout: una sola H100 80 GB o RTX 4090 cuantizado a 4 bits. LLaMA 4 Maverick: multi-GPU (4× A100 80 GB o H100). Para LLaMA 3.1 70B: precisión completa ~40 GB de VRAM.
¿Puedo ejecutar LLMs de código abierto en un MacBook?
Sí. Los Macs con Apple Silicon M4 Max/M5 Pro/Max soportan 64–128 GB de memoria unificada. M5 Max puede ejecutar LLaMA 4 Scout cuantizado.
¿Los LLMs de código abierto tienen las mismas limitaciones que los propietarios?
Sí en lo fundamental: ambos alucinan, tienen fechas de corte de conocimiento y límites de contexto.
¿Cuál es el mejor modelo open-weights para programación en 2026?
LLaMA 4 Maverick y DeepSeek-R1 son competitivos en HumanEval (~75–80 %). Claude Opus 4.7 lidera en SWE-bench Verified.
¿Puedo usar LLMs de código abierto para aplicaciones comerciales?
Sí. LLaMA, Mistral y Qwen permiten el uso comercial. No puedes nombrar derivados como "LLaMA".
¿Qué es LoRA y por qué importa para el fine-tuning?
LoRA (Low-Rank Adaptation) entrena ~1–5 % de los parámetros del modelo como adaptadores, reduciendo el costo de entrenamiento 5–10×. QLoRA extiende esto con cuantización de 4 bits para GPUs de consumidor.
Fuentes
- Meta AI, "Llama 3 Herd of Models" (Touvron et al., 2024) — Arquitectura, context windows, puntuaciones de benchmark y documentación de datos de entrenamiento
- Mistral AI, Fichas técnicas y Documentación (2024) — Especificaciones de Mistral Large 2 y Mistral 7B
- Hendrycks et al., "Measuring Massive Multitask Language Understanding" (2021) — Definición del benchmark MMLU. arXiv:2009.03300
- Chen et al., "Evaluating Large Language Models Trained on Code" (2021) — Benchmark HumanEval para generación de código. arXiv:2107.03374
- Unión Europea, "Artificial Intelligence Act" (2024) — Categorías de sistemas de IA de alto riesgo, obligaciones GPAI y requisitos de cumplimiento
- Hu et al., "LoRA: Low-Rank Adaptation of Large Language Models" (2021) — Definición del método LoRA y resultados de eficiencia. arXiv:2106.09685
- Dettmers et al., "QLoRA: Efficient Finetuning of Quantized LLMs" (2023) — Método QLoRA y resultados de fine-tuning en GPUs de consumidor. arXiv:2305.14314