Key Takeaways
- Programación: Qwen 3.6 27B lidera SWE-bench (77,2% en el mundo real, mejor modelo denso). Para programación agentiva: Mistral Devstral Small 24B. Para autocompletado en IDE: Mistral Codestral 22B.
- Razonamiento general: Llama 3.3 70B y Qwen3 72B siguen casi empatados; Llama 3.x es más fuerte en inglés, Qwen en multilingüe.
- Eficiencia (calidad por GB de RAM): Mistral Small 3.1 24B ofrece calidad cercana a los 70B con solo 14 GB de RAM -- sin cambios desde abril.
- Idiomas más allá del inglés: Qwen3 soporta 29 idiomas de forma nativa; Llama y Mistral están principalmente optimizados para inglés.
- Eficiencia MoE (nueva en 2026): Llama 4 Scout (17B activo / 109B total) se ejecuta con ~10 GB de VRAM y un contexto de 10M tokens -- el mayor cambio de paradigma en esta comparativa.
- Modelos heredados aún relevantes: Mistral Small 24B, Qwen 2.5 14B y Llama 3.1 8B siguen ampliamente desplegados. La sección "Referencia de benchmarks heredados" a continuación cubre cuándo actualizar versus cuándo quedarse.
•Info: 📌 ¿Buscas la comparativa anterior? Salta a los benchmarks heredados de Mistral 24B vs Qwen 2.5 14B vs Llama 3.1 8B más abajo.
¿Qué familia de modelos de código abierto deberías elegir?
Los modelos de generación anterior (Qwen3, Llama 3.3) siguen disponibles en Ollama y se usan ampliamente. Esta comparativa se centra en los modelos de generación actual. ¿Listo para ejecutar uno? Guía completa de configuración local de Qwen →
| Familia | Desarrollador | Versiones actuales | Licencia |
|---|---|---|---|
| Qwen3 | Alibaba | Qwen3 (abril 2026), Qwen 3.5 (multimodal), Qwen 3.6 27B (SWE-bench 77,2%) | Apache 2.0 (mayoría de tamaños) |
| Llama 4 | Meta | Scout (17B activo/109B MoE, contexto 10M), Maverick (17B activo/400B MoE), Legado: 3.3 70B | Llama Community (personalizada) |
| Mistral | Mistral AI | Small 3.1 (24B), Devstral Small 24B (agentivo), Codestral 22B (FIM/IDE) | Apache 2.0 (mayoría de tamaños) |
¿Cómo se comparan estos modelos en los benchmarks?
SWE-bench (resolución real de incidencias de GitHub) es el benchmark principal de programación de 2026 para evaluación práctica. Prueba cambios en múltiples archivos, comprensión del código base y escritura de tests. HumanEval (función Python de un solo archivo) sigue siendo útil para comparación, pero es secundario. MMLU y MATH evalúan conocimiento general y razonamiento. Los benchmarks de Llama 4 Scout son limitados por su lanzamiento reciente y la complejidad MoE. Los guiones indican benchmarks no publicados aún o no aplicables.
| Modelo | MMLU | SWE-bench | MATH | RAM (Q4_K_M) |
|---|---|---|---|---|
| Qwen 3.6 27B | ~83% | 77,2% | ~80% | 16 GB |
| Qwen3 72B | ~85% | — | ~84% | 43 GB |
| Llama 4 Scout 17B (MoE) | — | — | — | ~10 GB |
| Llama 3.3 70B (legado) | 82% | — | 77% | 40 GB |
| Mistral Small 3.1 24B | 79% | — | 65% | 14 GB |
| Devstral Small 24B | — | Alto (agentivo) | — | 16 GB |
| Qwen3 8B | ~75% | — | ~55% | 5 GB |
| Mistral 7B v0.3 | 64% | — | 28% | 4,5 GB |
¿En qué tareas destaca Qwen3 / Qwen 3.6?
Qwen3 (abril 2026) y Qwen 3.6 (mayo 2026) de Alibaba lideran los benchmarks de programación. Qwen 3.6 27B obtiene un 77,2% en SWE-bench — el mejor modelo de programación denso disponible. Qwen3 72B continúa liderando MMLU con ~85%. Qwen 3.5 añade capacidades multimodales. La familia Qwen3 incluye tanto modelos densos como variantes MoE (35B-A3B).
Fortalezas: programación (Python, JavaScript, SQL, SWE-bench líder), razonamiento matemático (84% MATH a 72B), soporte nativo de 29 idiomas, modo JSON, llamadas a funciones, ventana de contexto de 128K en todos los tamaños.
Debilidades: El estilo de seguimiento de instrucciones en inglés puede sentirse menos natural que Llama o Mistral; algunos usuarios reportan escritura creativa en inglés menos fluida. El origen de Alibaba plantea preocupaciones de manejo de datos para algunos usuarios empresariales, a pesar de los pesos abiertos.
¿Por qué Llama 4 es el más versátil?
Llama 4 (abril 2025) introdujo la arquitectura MoE en la familia Llama. Scout (17B activo / 109B total) cabe en 12 GB de VRAM con una ventana de contexto de 10M tokens — el contexto más amplio de cualquier modelo ejecutable localmente. Maverick (17B activo / 400B total) apunta a configuraciones multi-GPU. Llama 3.3 70B sigue siendo el modelo denso más probado en batalla, pero Llama 4 Scout ofrece mejor calidad por VRAM en la mayoría de tareas.
Fortalezas: ventana de contexto de 10M (Scout), eficiencia MoE (17B parámetros activos a 12 GB de VRAM), el mejor seguimiento de instrucciones en inglés y escritura creativa, el soporte de ecosistema más amplio de cualquier familia de código abierto, Llama 3.3 70B aún muy ajustado.
Debilidades: sin soporte multilingüe nativo (Qwen3 sigue liderando para idiomas distintos al inglés por un amplio margen); los benchmarks de Llama 4 Scout aún están en desarrollo. Llama 3.3 70B y Llama 3.1 8B siguen disponibles y son los modelos base más ajustados.
¿Cuál es la mayor ventaja de Mistral?
Mistral AI produce los modelos más eficientes en parámetros de esta comparativa y ahora ofrece variantes especializadas. Mistral Small 3.1 a 24B ofrece puntuaciones de benchmark cercanas a la clase de 70B requiriendo solo 14 GB de RAM -- la mejor relación calidad-RAM. Devstral Small 24B (Mistral AI, 2026) está diseñado para programación agentiva — ediciones en múltiples archivos, llamadas a herramientas y bucles de depuración. Codestral 22B es el modelo optimizado FIM de Mistral para autocompletado en IDE — el modelo recomendado para integraciones de Continue.dev y Cursor.
Fortalezas: mejor relación calidad-RAM (Small 3.1), Devstral para programación agentiva, Codestral para IDE/FIM, sólido soporte de llamadas a funciones y herramientas, licencia Apache 2.0 limpia en modelos clave, procedencia europea (Francia) para cumplimiento con la Ley de IA de la UE.
Debilidades: Mistral 7B v0.3 es ahora superado en benchmarks por Qwen3 7B y Llama 3.1 8B; menos opciones de tamaño en la frontera que Qwen o Llama (aunque la especialización compensa parcialmente esto).
Comparativa de tool calling y razonamiento
El tool calling (llamadas a funciones) permite a un modelo invocar APIs y herramientas externas en flujos de trabajo agentivos. A partir de abril de 2026, las tres familias lo soportan de forma nativa.
| Modelo | Tool Calling | Razonamiento (MATH) | Mejor para |
|---|---|---|---|
| Qwen3 72B | ✅ Nativo | 83% | Agentes complejos de múltiples pasos |
| Llama 3.3 70B | ✅ Nativo | 77% | Flujos de trabajo agentivos en inglés |
| Mistral Small 3.1 24B | ✅ Nativo, bien probado | 65% | Uso de herramientas en producción a 16 GB |
| Qwen3 14B | ✅ Nativo | 70% | Tool calling rentable |
| Llama 3.2 3B | ✅ Nativo | 51% | Agentes ligeros |
| Mistral 7B v0.3 | ⚠️ Limitado | 28% | No recomendado para tool calling |
Para tareas intensivas en razonamiento (matemáticas, lógica, revisión de código): DeepSeek-R1 (licencia MIT, 7B-32B) supera a las tres familias en benchmarks MATH. Considera incluirlo junto a estas tres para flujos de trabajo analíticos.
¿Qué familia de modelos gana por tarea?
La elección del modelo es el paso uno; el diseño del prompt es el paso dos. El mismo prompt puede producir resultados muy diferentes en Qwen, Llama y Mistral. Para técnicas sistemáticas que generen resultados consistentes con cualquier familia de modelos, consulta la guía de prompt engineering.
| Tarea | Ganador | Por qué |
|---|---|---|
| Programación Python / JavaScript (generación) | Qwen 3.6 | 77,2% SWE-bench — mejor modelo de programación denso |
| Programación agentiva (múltiples archivos, depuración) | Mistral (Devstral) | Diseñado para flujos de trabajo agentivos |
| Autocompletado en IDE (FIM) | Mistral (Codestral) | Optimizado para FIM, soporte Continue.dev/Cursor |
| Preguntas generales (inglés) | Llama 3.3 / Qwen3 (empate) | Ambos obtienen 82-85% MMLU a 70B |
| Razonamiento matemático | Qwen3 | 84% MATH a 72B vs 77% de Llama 3.3 70B |
| Idiomas distintos al inglés | Qwen3 | 29 idiomas nativos; Llama y Mistral son inglés-prioritarios |
| Escritura creativa (inglés) | Llama 3.x/4 | Estilo de generación en inglés más natural |
| Calidad con 16 GB de RAM | Mistral Small 3.1 | Calidad cercana a 70B con 14 GB de RAM — sin cambios |
| Tareas de contexto largo (10M+ tokens) | Llama 4 Scout | Ventana de contexto de 10M tokens — ningún competidor iguala |
| Primer modelo para principiantes | Llama 4 3B | Mejor documentado, más soporte comunitario — sin cambios |
¿Cómo se comparan los modelos a la misma escala?
Clase 3B-4B: Qwen3 3B y Phi-4 Mini 3.8B superan a Llama 4 3B en programación y matemáticas. Para uso general en inglés, Llama 4 3B es más fiable.
Clase 7B-8B: Qwen3 8B (~5 GB) y Llama 3.1 8B (~5,5 GB) superan significativamente a Mistral 7B v0.3. Qwen3 8B lidera en programación; Llama 3.1 8B lidera en seguimiento de instrucciones en inglés.
Clase 14B-24B: Qwen3 14B y Mistral Small 3.1 24B son las opciones principales. Mistral Small 3.1 es más fuerte en general, aunque requiere más RAM. Devstral Small 24B es la mejor opción para desarrolladores que hacen programación agentiva en este nivel.
Clase MoE (nueva en 2025-2026): Llama 4 Scout (17B activo / 109B total) y Qwen3 35B-A3B (3B activo / 35B total) usan arquitectura Mixture-of-Experts — solo una fracción de parámetros se activa por token. Esto los hace dramáticamente más eficientes en VRAM que los modelos densos. Llama 4 Scout con ~10 GB de VRAM supera a la mayoría de modelos densos de 13B. Los modelos MoE son el mayor cambio arquitectónico desde que se escribió la comparativa original.
Clase 70B-72B: Llama 3.3 70B y Qwen3 72B son los mejores modelos densos ejecutables localmente en 2026. Elige Qwen3 72B para programación y multilingüe; elige Llama 3.3 70B para tareas generales en inglés.
Qwen, Llama y Mistral cubren el panorama del código abierto. Para una comparativa que incluya alternativas comerciales — GPT-4o, Claude Sonnet 4.6 y Gemini 3.1 Pro — y cuándo elegir propietario frente a código abierto, consulta cómo elegir el modelo de IA adecuado.
Mistral Small 24B vs Qwen 2.5 14B vs Llama 3.1 8B: Referencia de benchmarks heredados
Muchos desarrolladores aún ejecutan la generación anterior: Mistral Small 24B (2024), Qwen 2.5 14B (2024) y Llama 3.1 8B (2024). Estos modelos siguen disponibles en Ollama y están ampliamente desplegados en producción. Esta sección los compara directamente para los equipos que aún no han actualizado y explica cuándo tiene sentido actualizar a Qwen 3, Llama 4 o Mistral actual.
- Mistral Small 24B ofrece los benchmarks absolutos más altos de los tres, pero requiere 14 GB de RAM. Ideal para máquinas con 16 GB o más donde la calidad importa más que el margen.
- Qwen 2.5 14B es el modelo de programación más potente en este nivel heredado, con un 71% en HumanEval usando 8 GB de RAM. Ideal para desarrolladores con 12-16 GB de RAM que priorizan la generación de código.
- Llama 3.1 8B cuenta con el soporte de ecosistema más amplio — más ajustes finos, más tutoriales, más ayuda de la comunidad. Ideal para usuarios principiantes o equipos que necesitan recursos comunitarios amplios.
- Cuándo actualizar Mistral Small 24B → Mistral Small 3.1 24B: si necesitas programación agentiva (usa Devstral Small 24B), autocompletado en IDE (usa Codestral 22B) o mejoras incrementales de calidad con la misma huella de RAM.
- Cuándo actualizar Qwen 2.5 14B → Qwen 3 14B o Qwen 3.6 27B: si necesitas rendimiento en SWE-bench (Qwen 3.6 27B obtiene 77,2%, el mejor modelo de programación denso de 2026), ya tienes 16 GB de RAM, o necesitas soporte nativo de 29 idiomas (Qwen 3 amplió la cobertura multilingüe).
- Cuándo actualizar Llama 3.1 8B → Llama 4 Scout: si tienes 12 GB+ de VRAM (la arquitectura MoE de Scout activa 17B/109B parámetros, ~10 GB de VRAM), necesitas razonamiento de contexto largo (Scout soporta 10M tokens vs 128K de Llama 3.1), o quieres rendimiento de clase frontera por VRAM (Scout supera a la mayoría de modelos densos de 13B).
- Quédate en los modelos heredados si: tus ajustes finos están construidos sobre Llama 3.1 8B o Qwen 2.5 (el coste de migración supera el beneficio), la estabilidad en producción importa más que los benchmarks (los modelos heredados están probados en batalla), o tu carga de trabajo no requiere las nuevas capacidades (chat general, resumen, Q&A básico).
- Matriz de decisión rápida para usuarios heredados:
- • Tienes 8 GB de RAM, haces chat general: Quédate en Llama 3.1 8B o Mistral 7B v0.3.
- • Tienes 12-16 GB de RAM, haces programación: Actualiza Qwen 2.5 14B → Qwen 3 14B o Qwen 3.6 27B.
- • Tienes 16+ GB de RAM, quieres la mejor calidad: Actualiza Mistral 24B → Mistral Small 3.1 24B (general) o Devstral 24B (programación agentiva).
- • Tienes 12+ GB de VRAM: Salta los modelos densos por completo — usa Llama 4 Scout (MoE, contexto 10M) para la mejor relación calidad-VRAM de 2026.
| Modelo | Parámetros | RAM (Q4_K_M) | MMLU | HumanEval | Mejor para |
|---|---|---|---|---|---|
| Mistral Small 24B | 24B denso | 14 GB | 79% | 73% | Mejor calidad por RAM (nivel heredado) |
| Qwen 2.5 14B | 14B denso | 8 GB | 73% | 71% | Programación en hardware de gama media |
| Llama 3.1 8B | 8B denso | 5 GB | 68% | 65% | El más documentado, inicio más fácil |
Contexto regional: ¿Qué familia para UE, Japón, China?
Cumplimiento UE y RGPD: Las tres familias (Qwen3, Llama 3.x/4, Mistral) se ejecutan completamente en local sin transmisión de datos externos, garantizando el cumplimiento del RGPD. Mistral (de origen francés, Mistral AI) tiene la postura de cumplimiento UE más sólida. Devstral Small 24B y Codestral 22B son de origen francés (Mistral AI), Apache 2.0 — los modelos de programación de origen europeo más fuertes disponibles. Tanto Qwen3 (Apache 2.0) como Llama 3.x/4 funcionan igualmente bien bajo los requisitos de transparencia de la Ley de IA de la UE y la auditabilidad de código abierto. Qwen3 soporta de forma nativa el alemán, el francés y otros idiomas de la UE sin degradación de calidad. La fecha límite de agosto de 2026 de la Ley de IA de la UE afecta a la clasificación de estos niveles de modelos.
Japón y cumplimiento METI: Qwen3 y Llama 3.x/4 se alinean con las directrices de gobernanza de IA local del METI (Ministerio de Economía, Comercio e Industria) de Japón. No se requieren informes especiales si se despliegan en infraestructura privada dentro de redes corporativas japonesas. Qwen3 se beneficia de un fuerte soporte del idioma japonés (tokenización nativa) entre sus 29 idiomas, lo que lo hace preferido para cargas de trabajo en japonés. Mistral también cumple, pero está menos documentado en contextos de gobernanza de IA japonesa. La eficiencia MoE de Llama 4 Scout resulta atractiva para empresas japonesas con hardware limitado.
China y requisitos CAC: Qwen3 (Alibaba, doméstico) es ampliamente preferido para el cumplimiento de la CAC (Cyberspace Administration of China). Qwen3 está optimizado de forma nativa para la tokenización china sin degradación en sus 29 idiomas — una ventaja crítica para el soporte del mandarín y dialectos. Kimi K2.6 (Moonshot AI, licencia MIT) también está disponible para programación empresarial en China — rendimiento de primer nivel, licencia MIT. Llama y Mistral son aceptables si se despliegan en servidores privados dentro del territorio chino, pero las llamadas a la API en la nube conllevan mayor escrutinio CAC y requisitos de residencia de datos. Para el cumplimiento en moderación de contenido, la herencia de entrenamiento en chino de Qwen3 garantiza la alineación con las políticas de contenido locales.
Errores comunes al elegir familias de modelos
- Comparar modelos con diferente número de parámetros -- Qwen 32B vs Llama 70B no es una comparación de igual a igual.
- Ignorar los modelos MoE en comparativas de familias. Llama 4 Scout tiene 109B parámetros totales pero solo 17B activos por token — cabe en 12 GB de VRAM y supera a modelos densos de 13B. Comparar los 109B totales de Scout contra los 27B densos de Qwen 3.6 es engañoso. Compara por nivel de VRAM y benchmark, no por número de parámetros.
- Usar Qwen3 cuando Qwen3 está disponible. Qwen3 8B mejora a Qwen3 7B en benchmarks de programación. A menos que tengas un ajuste fino específico basado en Qwen3, actualiza a Qwen3.
- No considerar los modelos especializados de Mistral. Mistral ahora tiene tres líneas de modelos distintas: Small 3.1 (general), Devstral (programación agentiva), Codestral (autocompletado en IDE). Elegir "Mistral" sin especificar qué modelo para qué tarea desaprovecha la principal ventaja de la familia — la especialización.
- Ignorar los benchmarks multilingües al elegir entre modelos si tu carga de trabajo es multilingüe.
- Mistral Small 3.1 pasado por alto: Muchos usuarios omiten Small 3.1 (24B) pensando que requiere 30+ GB de RAM. Cabe a cuantización Q5 con 22 GB, superando a Llama 3.1 8B en muchas tareas.
Preguntas frecuentes
¿Qwen o Llama es mejor para mi caso de uso?
Para programación y tareas multilingües: Qwen 3.6 27B (77,2% SWE-bench) o Qwen3 8B. Para razonamiento en inglés: Llama 3.3 70B o Llama 4 Scout para eficiencia. Para máxima calidad por GB de RAM: Mistral Small 3.1. Prueba con prompts de ejemplo de tu carga de trabajo real.
¿Qué es Llama 4 Scout y en qué se diferencia de Llama 3.3?
Llama 4 Scout usa arquitectura Mixture-of-Experts (MoE) — 17B parámetros están activos por token de un total de 109B. Esto significa que se ejecuta con ~10 GB de VRAM (comparable a un modelo denso de 14B) mientras ofrece calidad más cercana a modelos densos de 30B. También tiene una ventana de contexto de 10M tokens — la más amplia de cualquier modelo ejecutable localmente. Llama 3.3 70B es un modelo denso que requiere 40 GB de VRAM. Scout ofrece mejor calidad por VRAM; Llama 3.3 70B ofrece calidad absoluta ligeramente mejor si tienes el hardware.
¿Debo usar Qwen3 o Qwen3?
Usa Qwen3 para proyectos nuevos. Qwen3 8B mejora a Qwen3 7B en benchmarks de programación y razonamiento. Qwen 3.6 27B (77,2% SWE-bench) es el mejor modelo de programación denso disponible. La única razón para quedarse en Qwen3 es si tienes un ajuste fino o flujo de trabajo existente que depende de su comportamiento específico. Para instalaciones nuevas, empieza siempre con Qwen3.
¿Cuánto más rápido es Mistral en hardware de consumo?
Mistral Small 3.1 (24B) se ejecuta 1,5-2× más rápido que Llama 3.1 8B en el mismo hardware. Para cargas de trabajo sensibles al rendimiento, Mistral 7B es el más rápido con 40-60 tok/seg en una sola GPU. Codestral 22B está optimizado para FIM (relleno en el medio) en flujos de trabajo de autocompletado en IDE.
¿Los tres pueden ejecutarse con 8 GB de VRAM?
Sí, todos pueden ejecutar modelos de 7B a cuantización Q4 con 8 GB. Qwen3 8B usa ~5 GB, Llama 3.1 8B usa ~5,5 GB, Mistral 7B usa ~4,5 GB a Q4_K_M. Llama 4 Scout (17B activo, MoE) NO cabe en 8 GB — necesita 12 GB.
¿Necesito una RTX 5090 para ejecutarlos?
No. La RTX 5070 (12 GB) ejecuta modelos de 7B cómodamente y también gestiona Llama 4 Scout. La RTX 5060 Ti (8 GB) maneja todas las variantes de 7B. La RTX 5090 es exagerada a menos que ejecutes modelos de 70B en producción.
¿Qué cuantización debo usar?
Empieza con Q4_K_M (4-bit) -- buen equilibrio entre calidad y velocidad en todo el hardware. Usa Q5_K_M si tienes margen de VRAM y necesitas mayor calidad. Q3_K_S para dispositivos con recursos limitados.
¿Cuál es mejor para programación?
Qwen3 8B (~76% HumanEval) para el nivel de 8 GB. Qwen 3.6 27B (77,2% SWE-bench) para la mejor programación densa. Devstral Small 24B para flujos de trabajo agentivos en múltiples archivos. Codestral 22B para autocompletado en IDE (FIM).
Fuentes
- Qwen Team. (2026). Qwen3 Technical Report. -- Benchmarks de la familia Qwen3, SWE-bench de Qwen 3.6 27B (77,2%), variantes MoE.
- Meta AI. (2025). Llama 4 Model Card. -- Benchmark oficial y arquitectura de Llama 4 Scout/Maverick MoE, ventana de contexto de 10M.
- Mistral AI. (2026). Devstral Small 24B. -- Arquitectura y benchmarks del modelo de programación agentiva.
- Mistral AI. (2025). Codestral. -- Modelo de programación optimizado FIM para autocompletado en IDE.
- Meta AI. (2024). Llama 3.3 Model Card. -- Datos de benchmark oficiales de Llama 3.3 70B (legado, aún muy usado).
Registro de actualizaciones
- 2026-05-17: Añadida la sección "Referencia de benchmarks heredados" comparando Mistral Small 24B, Qwen 2.5 14B y Llama 3.1 8B. Título actualizado para conectar búsquedas de modelos heredados y actuales.