Home/Local LLMs/Qwen 2.5 vs Llama 3.3 vs Mistral: Comparativa de LLM Local 2026

Best Models

Qwen 2.5 vs Llama 3.3 vs Mistral: Comparativa de LLM Local 2026

Last updated: May 2026·9 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es

Qwen 3.6 27B lidera el programación en modelos densos (77,2% SWE-bench). Llama 4 Scout es el más versátil (17B activo, MoE, contexto 10M). Mistral Small 3.1 24B ofrece la mejor calidad por VRAM a 14 GB.

Qwen 3.6 27B lidera los benchmarks de programación con 77,2% en SWE-bench (mejor modelo denso); Llama 4 Scout 17B (MoE, contexto de 10M) es el más versátil con 12 GB de VRAM; Mistral Small 3.1 24B ofrece la mejor relación calidad-RAM a 14 GB. Qwen3 destaca en programación y 29 idiomas; Llama 4 domina en longitud de contexto y eficiencia mediante MoE; Mistral maximiza la calidad en hardware limitado. Los tres se ejecutan en hardware de consumo mediante Ollama. Actualizado: mayo de 2026.

Slide Deck: Qwen 2.5 vs Llama 3.3 vs Mistral: Comparativa de LLM Local 2026

La presentación a continuación cubre: comparativa de benchmarks Qwen 3.6 vs Llama 4 Scout vs Mistral (mayo 2026 — SWE-bench, eficiencia MoE), qué modelo gana por tarea (programación, multilingüe, contexto largo, eficiencia de RAM), comparativa por tamaño incluyendo el nivel MoE, Devstral para programación agentiva, Codestral para IDE y comandos de inicio rápido con Ollama. Descarga el PDF como tarjeta de referencia para selección de modelos LLM locales.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

Programación: Qwen 3.6 27B lidera SWE-bench (77,2% en el mundo real, mejor modelo denso). Para programación agentiva: Mistral Devstral Small 24B. Para autocompletado en IDE: Mistral Codestral 22B.
Razonamiento general: Llama 3.3 70B y Qwen3 72B siguen casi empatados; Llama 3.x es más fuerte en inglés, Qwen en multilingüe.
Eficiencia (calidad por GB de RAM): Mistral Small 3.1 24B ofrece calidad cercana a los 70B con solo 14 GB de RAM -- sin cambios desde abril.
Idiomas más allá del inglés: Qwen3 soporta 29 idiomas de forma nativa; Llama y Mistral están principalmente optimizados para inglés.
Eficiencia MoE (nueva en 2026): Llama 4 Scout (17B activo / 109B total) se ejecuta con ~10 GB de VRAM y un contexto de 10M tokens -- el mayor cambio de paradigma en esta comparativa.
Modelos heredados aún relevantes: Mistral Small 24B, Qwen 2.5 14B y Llama 3.1 8B siguen ampliamente desplegados. La sección "Referencia de benchmarks heredados" a continuación cubre cuándo actualizar versus cuándo quedarse.

•Info: 📌 ¿Buscas la comparativa anterior? Salta a los benchmarks heredados de Mistral 24B vs Qwen 2.5 14B vs Llama 3.1 8B más abajo.

¿Qué familia de modelos de código abierto deberías elegir?

Los modelos de generación anterior (Qwen3, Llama 3.3) siguen disponibles en Ollama y se usan ampliamente. Esta comparativa se centra en los modelos de generación actual. ¿Listo para ejecutar uno? Guía completa de configuración local de Qwen →

Familia	Desarrollador	Versiones actuales	Licencia
Qwen3	Alibaba	Qwen3 (abril 2026), Qwen 3.5 (multimodal), Qwen 3.6 27B (SWE-bench 77,2%)	Apache 2.0 (mayoría de tamaños)
Llama 4	Meta	Scout (17B activo/109B MoE, contexto 10M), Maverick (17B activo/400B MoE), Legado: 3.3 70B	Llama Community (personalizada)
Mistral	Mistral AI	Small 3.1 (24B), Devstral Small 24B (agentivo), Codestral 22B (FIM/IDE)	Apache 2.0 (mayoría de tamaños)

¿Cómo se comparan estos modelos en los benchmarks?

SWE-bench (resolución real de incidencias de GitHub) es el benchmark principal de programación de 2026 para evaluación práctica. Prueba cambios en múltiples archivos, comprensión del código base y escritura de tests. HumanEval (función Python de un solo archivo) sigue siendo útil para comparación, pero es secundario. MMLU y MATH evalúan conocimiento general y razonamiento. Los benchmarks de Llama 4 Scout son limitados por su lanzamiento reciente y la complejidad MoE. Los guiones indican benchmarks no publicados aún o no aplicables.

Modelo	MMLU	SWE-bench	MATH	RAM (Q4_K_M)
Qwen 3.6 27B	~83%	77,2%	~80%	16 GB
Qwen3 72B	~85%	—	~84%	43 GB
Llama 4 Scout 17B (MoE)	—	—	—	~10 GB
Llama 3.3 70B (legado)	82%	—	77%	40 GB
Mistral Small 3.1 24B	79%	—	65%	14 GB
Devstral Small 24B	—	Alto (agentivo)	—	16 GB
Qwen3 8B	~75%	—	~55%	5 GB
Mistral 7B v0.3	64%	—	28%	4,5 GB

Comparativa de benchmarks (mayo 2026): Qwen 3.6 27B (77,2% SWE-bench) lidera en programación densa. SWE-bench (resolución real de incidencias de GitHub en múltiples archivos) es ahora más relevante que HumanEval para evaluar modelos de programación. Llama 4 Scout usa arquitectura MoE que permite 17B parámetros activos con ~10 GB de VRAM.

¿En qué tareas destaca Qwen3 / Qwen 3.6?

Qwen3 (abril 2026) y Qwen 3.6 (mayo 2026) de Alibaba lideran los benchmarks de programación. Qwen 3.6 27B obtiene un 77,2% en SWE-bench — el mejor modelo de programación denso disponible. Qwen3 72B continúa liderando MMLU con ~85%. Qwen 3.5 añade capacidades multimodales. La familia Qwen3 incluye tanto modelos densos como variantes MoE (35B-A3B).

Fortalezas: programación (Python, JavaScript, SQL, SWE-bench líder), razonamiento matemático (84% MATH a 72B), soporte nativo de 29 idiomas, modo JSON, llamadas a funciones, ventana de contexto de 128K en todos los tamaños.

Debilidades: El estilo de seguimiento de instrucciones en inglés puede sentirse menos natural que Llama o Mistral; algunos usuarios reportan escritura creativa en inglés menos fluida. El origen de Alibaba plantea preocupaciones de manejo de datos para algunos usuarios empresariales, a pesar de los pesos abiertos.

Soporte multilingüe de Qwen3: 29 idiomas nativos (chino, japonés, coreano, árabe, alemán, francés y más) frente a Llama 3.x y Mistral como LLM locales con inglés como idioma principal.

¿Por qué Llama 4 es el más versátil?

Llama 4 (abril 2025) introdujo la arquitectura MoE en la familia Llama. Scout (17B activo / 109B total) cabe en 12 GB de VRAM con una ventana de contexto de 10M tokens — el contexto más amplio de cualquier modelo ejecutable localmente. Maverick (17B activo / 400B total) apunta a configuraciones multi-GPU. Llama 3.3 70B sigue siendo el modelo denso más probado en batalla, pero Llama 4 Scout ofrece mejor calidad por VRAM en la mayoría de tareas.

Fortalezas: ventana de contexto de 10M (Scout), eficiencia MoE (17B parámetros activos a 12 GB de VRAM), el mejor seguimiento de instrucciones en inglés y escritura creativa, el soporte de ecosistema más amplio de cualquier familia de código abierto, Llama 3.3 70B aún muy ajustado.

Debilidades: sin soporte multilingüe nativo (Qwen3 sigue liderando para idiomas distintos al inglés por un amplio margen); los benchmarks de Llama 4 Scout aún están en desarrollo. Llama 3.3 70B y Llama 3.1 8B siguen disponibles y son los modelos base más ajustados.

¿Cuál es la mayor ventaja de Mistral?

Mistral AI produce los modelos más eficientes en parámetros de esta comparativa y ahora ofrece variantes especializadas. Mistral Small 3.1 a 24B ofrece puntuaciones de benchmark cercanas a la clase de 70B requiriendo solo 14 GB de RAM -- la mejor relación calidad-RAM. Devstral Small 24B (Mistral AI, 2026) está diseñado para programación agentiva — ediciones en múltiples archivos, llamadas a herramientas y bucles de depuración. Codestral 22B es el modelo optimizado FIM de Mistral para autocompletado en IDE — el modelo recomendado para integraciones de Continue.dev y Cursor.

Fortalezas: mejor relación calidad-RAM (Small 3.1), Devstral para programación agentiva, Codestral para IDE/FIM, sólido soporte de llamadas a funciones y herramientas, licencia Apache 2.0 limpia en modelos clave, procedencia europea (Francia) para cumplimiento con la Ley de IA de la UE.

Debilidades: Mistral 7B v0.3 es ahora superado en benchmarks por Qwen3 7B y Llama 3.1 8B; menos opciones de tamaño en la frontera que Qwen o Llama (aunque la especialización compensa parcialmente esto).

Eficiencia de Mistral Small 3.1: 79% MMLU con 14 GB de RAM frente a Llama 3.3 70B (82% / 40 GB) y Qwen3 72B (85% / 43 GB) -- calidad casi equivalente a 70B con el 33% del coste en RAM. Además: Devstral (agentivo) y Codestral (autocompletado IDE).

Comparativa de tool calling y razonamiento

El tool calling (llamadas a funciones) permite a un modelo invocar APIs y herramientas externas en flujos de trabajo agentivos. A partir de abril de 2026, las tres familias lo soportan de forma nativa.

Modelo	Tool Calling	Razonamiento (MATH)	Mejor para
Qwen3 72B	✅ Nativo	83%	Agentes complejos de múltiples pasos
Llama 3.3 70B	✅ Nativo	77%	Flujos de trabajo agentivos en inglés
Mistral Small 3.1 24B	✅ Nativo, bien probado	65%	Uso de herramientas en producción a 16 GB
Qwen3 14B	✅ Nativo	70%	Tool calling rentable
Llama 3.2 3B	✅ Nativo	51%	Agentes ligeros
Mistral 7B v0.3	⚠️ Limitado	28%	No recomendado para tool calling

Para tareas intensivas en razonamiento (matemáticas, lógica, revisión de código): DeepSeek-R1 (licencia MIT, 7B-32B) supera a las tres familias en benchmarks MATH. Considera incluirlo junto a estas tres para flujos de trabajo analíticos.

¿Qué familia de modelos gana por tarea?

La elección del modelo es el paso uno; el diseño del prompt es el paso dos. El mismo prompt puede producir resultados muy diferentes en Qwen, Llama y Mistral. Para técnicas sistemáticas que generen resultados consistentes con cualquier familia de modelos, consulta la guía de prompt engineering.

Tarea	Ganador	Por qué
Programación Python / JavaScript (generación)	Qwen 3.6	77,2% SWE-bench — mejor modelo de programación denso
Programación agentiva (múltiples archivos, depuración)	Mistral (Devstral)	Diseñado para flujos de trabajo agentivos
Autocompletado en IDE (FIM)	Mistral (Codestral)	Optimizado para FIM, soporte Continue.dev/Cursor
Preguntas generales (inglés)	Llama 3.3 / Qwen3 (empate)	Ambos obtienen 82-85% MMLU a 70B
Razonamiento matemático	Qwen3	84% MATH a 72B vs 77% de Llama 3.3 70B
Idiomas distintos al inglés	Qwen3	29 idiomas nativos; Llama y Mistral son inglés-prioritarios
Escritura creativa (inglés)	Llama 3.x/4	Estilo de generación en inglés más natural
Calidad con 16 GB de RAM	Mistral Small 3.1	Calidad cercana a 70B con 14 GB de RAM — sin cambios
Tareas de contexto largo (10M+ tokens)	Llama 4 Scout	Ventana de contexto de 10M tokens — ningún competidor iguala
Primer modelo para principiantes	Llama 4 3B	Mejor documentado, más soporte comunitario — sin cambios

Matriz de ganadores por tarea (mayo 2026): Qwen 3.6 gana en programación densa (77,2% SWE-bench); Devstral gana en agentivo; Codestral gana en autocompletado IDE; Llama 4 Scout domina contexto largo; Mistral Small 3.1 mejor calidad por GB.

¿Cómo se comparan los modelos a la misma escala?

Clase 3B-4B: Qwen3 3B y Phi-4 Mini 3.8B superan a Llama 4 3B en programación y matemáticas. Para uso general en inglés, Llama 4 3B es más fiable.

Clase 7B-8B: Qwen3 8B (~5 GB) y Llama 3.1 8B (~5,5 GB) superan significativamente a Mistral 7B v0.3. Qwen3 8B lidera en programación; Llama 3.1 8B lidera en seguimiento de instrucciones en inglés.

Clase 14B-24B: Qwen3 14B y Mistral Small 3.1 24B son las opciones principales. Mistral Small 3.1 es más fuerte en general, aunque requiere más RAM. Devstral Small 24B es la mejor opción para desarrolladores que hacen programación agentiva en este nivel.

Clase MoE (nueva en 2025-2026): Llama 4 Scout (17B activo / 109B total) y Qwen3 35B-A3B (3B activo / 35B total) usan arquitectura Mixture-of-Experts — solo una fracción de parámetros se activa por token. Esto los hace dramáticamente más eficientes en VRAM que los modelos densos. Llama 4 Scout con ~10 GB de VRAM supera a la mayoría de modelos densos de 13B. Los modelos MoE son el mayor cambio arquitectónico desde que se escribió la comparativa original.

Clase 70B-72B: Llama 3.3 70B y Qwen3 72B son los mejores modelos densos ejecutables localmente en 2026. Elige Qwen3 72B para programación y multilingüe; elige Llama 3.3 70B para tareas generales en inglés.

Qwen, Llama y Mistral cubren el panorama del código abierto. Para una comparativa que incluya alternativas comerciales — GPT-4o, Claude Sonnet 4.6 y Gemini 3.1 Pro — y cuándo elegir propietario frente a código abierto, consulta cómo elegir el modelo de IA adecuado.

Cinco clases de LLM local: 3-4B (Llama 4 3B, ~2 GB), 7-8B (Qwen3 8B, ~5 GB), MoE (Llama 4 Scout, ~10 GB), 14-24B (Mistral Small 3.1, ~14 GB), 70-72B (Qwen3 72B, ~43 GB) -- todos ejecutables mediante Ollama.

Mistral Small 24B vs Qwen 2.5 14B vs Llama 3.1 8B: Referencia de benchmarks heredados

Muchos desarrolladores aún ejecutan la generación anterior: Mistral Small 24B (2024), Qwen 2.5 14B (2024) y Llama 3.1 8B (2024). Estos modelos siguen disponibles en Ollama y están ampliamente desplegados en producción. Esta sección los compara directamente para los equipos que aún no han actualizado y explica cuándo tiene sentido actualizar a Qwen 3, Llama 4 o Mistral actual.

Mistral Small 24B ofrece los benchmarks absolutos más altos de los tres, pero requiere 14 GB de RAM. Ideal para máquinas con 16 GB o más donde la calidad importa más que el margen.
Qwen 2.5 14B es el modelo de programación más potente en este nivel heredado, con un 71% en HumanEval usando 8 GB de RAM. Ideal para desarrolladores con 12-16 GB de RAM que priorizan la generación de código.
Llama 3.1 8B cuenta con el soporte de ecosistema más amplio — más ajustes finos, más tutoriales, más ayuda de la comunidad. Ideal para usuarios principiantes o equipos que necesitan recursos comunitarios amplios.
Cuándo actualizar Mistral Small 24B → Mistral Small 3.1 24B: si necesitas programación agentiva (usa Devstral Small 24B), autocompletado en IDE (usa Codestral 22B) o mejoras incrementales de calidad con la misma huella de RAM.
Cuándo actualizar Qwen 2.5 14B → Qwen 3 14B o Qwen 3.6 27B: si necesitas rendimiento en SWE-bench (Qwen 3.6 27B obtiene 77,2%, el mejor modelo de programación denso de 2026), ya tienes 16 GB de RAM, o necesitas soporte nativo de 29 idiomas (Qwen 3 amplió la cobertura multilingüe).
Cuándo actualizar Llama 3.1 8B → Llama 4 Scout: si tienes 12 GB+ de VRAM (la arquitectura MoE de Scout activa 17B/109B parámetros, ~10 GB de VRAM), necesitas razonamiento de contexto largo (Scout soporta 10M tokens vs 128K de Llama 3.1), o quieres rendimiento de clase frontera por VRAM (Scout supera a la mayoría de modelos densos de 13B).
Quédate en los modelos heredados si: tus ajustes finos están construidos sobre Llama 3.1 8B o Qwen 2.5 (el coste de migración supera el beneficio), la estabilidad en producción importa más que los benchmarks (los modelos heredados están probados en batalla), o tu carga de trabajo no requiere las nuevas capacidades (chat general, resumen, Q&A básico).
Matriz de decisión rápida para usuarios heredados:
• Tienes 8 GB de RAM, haces chat general: Quédate en Llama 3.1 8B o Mistral 7B v0.3.
• Tienes 12-16 GB de RAM, haces programación: Actualiza Qwen 2.5 14B → Qwen 3 14B o Qwen 3.6 27B.
• Tienes 16+ GB de RAM, quieres la mejor calidad: Actualiza Mistral 24B → Mistral Small 3.1 24B (general) o Devstral 24B (programación agentiva).
• Tienes 12+ GB de VRAM: Salta los modelos densos por completo — usa Llama 4 Scout (MoE, contexto 10M) para la mejor relación calidad-VRAM de 2026.

Modelo	Parámetros	RAM (Q4_K_M)	MMLU	HumanEval	Mejor para
Mistral Small 24B	24B denso	14 GB	79%	73%	Mejor calidad por RAM (nivel heredado)
Qwen 2.5 14B	14B denso	8 GB	73%	71%	Programación en hardware de gama media
Llama 3.1 8B	8B denso	5 GB	68%	65%	El más documentado, inicio más fácil

Contexto regional: ¿Qué familia para UE, Japón, China?

Cumplimiento UE y RGPD: Las tres familias (Qwen3, Llama 3.x/4, Mistral) se ejecutan completamente en local sin transmisión de datos externos, garantizando el cumplimiento del RGPD. Mistral (de origen francés, Mistral AI) tiene la postura de cumplimiento UE más sólida. Devstral Small 24B y Codestral 22B son de origen francés (Mistral AI), Apache 2.0 — los modelos de programación de origen europeo más fuertes disponibles. Tanto Qwen3 (Apache 2.0) como Llama 3.x/4 funcionan igualmente bien bajo los requisitos de transparencia de la Ley de IA de la UE y la auditabilidad de código abierto. Qwen3 soporta de forma nativa el alemán, el francés y otros idiomas de la UE sin degradación de calidad. La fecha límite de agosto de 2026 de la Ley de IA de la UE afecta a la clasificación de estos niveles de modelos.

Japón y cumplimiento METI: Qwen3 y Llama 3.x/4 se alinean con las directrices de gobernanza de IA local del METI (Ministerio de Economía, Comercio e Industria) de Japón. No se requieren informes especiales si se despliegan en infraestructura privada dentro de redes corporativas japonesas. Qwen3 se beneficia de un fuerte soporte del idioma japonés (tokenización nativa) entre sus 29 idiomas, lo que lo hace preferido para cargas de trabajo en japonés. Mistral también cumple, pero está menos documentado en contextos de gobernanza de IA japonesa. La eficiencia MoE de Llama 4 Scout resulta atractiva para empresas japonesas con hardware limitado.

China y requisitos CAC: Qwen3 (Alibaba, doméstico) es ampliamente preferido para el cumplimiento de la CAC (Cyberspace Administration of China). Qwen3 está optimizado de forma nativa para la tokenización china sin degradación en sus 29 idiomas — una ventaja crítica para el soporte del mandarín y dialectos. Kimi K2.6 (Moonshot AI, licencia MIT) también está disponible para programación empresarial en China — rendimiento de primer nivel, licencia MIT. Llama y Mistral son aceptables si se despliegan en servidores privados dentro del territorio chino, pero las llamadas a la API en la nube conllevan mayor escrutinio CAC y requisitos de residencia de datos. Para el cumplimiento en moderación de contenido, la herencia de entrenamiento en chino de Qwen3 garantiza la alineación con las políticas de contenido locales.

Errores comunes al elegir familias de modelos

Comparar modelos con diferente número de parámetros -- Qwen 32B vs Llama 70B no es una comparación de igual a igual.
Ignorar los modelos MoE en comparativas de familias. Llama 4 Scout tiene 109B parámetros totales pero solo 17B activos por token — cabe en 12 GB de VRAM y supera a modelos densos de 13B. Comparar los 109B totales de Scout contra los 27B densos de Qwen 3.6 es engañoso. Compara por nivel de VRAM y benchmark, no por número de parámetros.
Usar Qwen3 cuando Qwen3 está disponible. Qwen3 8B mejora a Qwen3 7B en benchmarks de programación. A menos que tengas un ajuste fino específico basado en Qwen3, actualiza a Qwen3.
No considerar los modelos especializados de Mistral. Mistral ahora tiene tres líneas de modelos distintas: Small 3.1 (general), Devstral (programación agentiva), Codestral (autocompletado en IDE). Elegir "Mistral" sin especificar qué modelo para qué tarea desaprovecha la principal ventaja de la familia — la especialización.
Ignorar los benchmarks multilingües al elegir entre modelos si tu carga de trabajo es multilingüe.
Mistral Small 3.1 pasado por alto: Muchos usuarios omiten Small 3.1 (24B) pensando que requiere 30+ GB de RAM. Cabe a cuantización Q5 con 22 GB, superando a Llama 3.1 8B en muchas tareas.

Preguntas frecuentes

¿Qwen o Llama es mejor para mi caso de uso?

Para programación y tareas multilingües: Qwen 3.6 27B (77,2% SWE-bench) o Qwen3 8B. Para razonamiento en inglés: Llama 3.3 70B o Llama 4 Scout para eficiencia. Para máxima calidad por GB de RAM: Mistral Small 3.1. Prueba con prompts de ejemplo de tu carga de trabajo real.

¿Qué es Llama 4 Scout y en qué se diferencia de Llama 3.3?

Llama 4 Scout usa arquitectura Mixture-of-Experts (MoE) — 17B parámetros están activos por token de un total de 109B. Esto significa que se ejecuta con ~10 GB de VRAM (comparable a un modelo denso de 14B) mientras ofrece calidad más cercana a modelos densos de 30B. También tiene una ventana de contexto de 10M tokens — la más amplia de cualquier modelo ejecutable localmente. Llama 3.3 70B es un modelo denso que requiere 40 GB de VRAM. Scout ofrece mejor calidad por VRAM; Llama 3.3 70B ofrece calidad absoluta ligeramente mejor si tienes el hardware.

¿Debo usar Qwen3 o Qwen3?

Usa Qwen3 para proyectos nuevos. Qwen3 8B mejora a Qwen3 7B en benchmarks de programación y razonamiento. Qwen 3.6 27B (77,2% SWE-bench) es el mejor modelo de programación denso disponible. La única razón para quedarse en Qwen3 es si tienes un ajuste fino o flujo de trabajo existente que depende de su comportamiento específico. Para instalaciones nuevas, empieza siempre con Qwen3.

¿Cuánto más rápido es Mistral en hardware de consumo?

Mistral Small 3.1 (24B) se ejecuta 1,5-2× más rápido que Llama 3.1 8B en el mismo hardware. Para cargas de trabajo sensibles al rendimiento, Mistral 7B es el más rápido con 40-60 tok/seg en una sola GPU. Codestral 22B está optimizado para FIM (relleno en el medio) en flujos de trabajo de autocompletado en IDE.

¿Los tres pueden ejecutarse con 8 GB de VRAM?

Sí, todos pueden ejecutar modelos de 7B a cuantización Q4 con 8 GB. Qwen3 8B usa ~5 GB, Llama 3.1 8B usa ~5,5 GB, Mistral 7B usa ~4,5 GB a Q4_K_M. Llama 4 Scout (17B activo, MoE) NO cabe en 8 GB — necesita 12 GB.

¿Necesito una RTX 5090 para ejecutarlos?

No. La RTX 5070 (12 GB) ejecuta modelos de 7B cómodamente y también gestiona Llama 4 Scout. La RTX 5060 Ti (8 GB) maneja todas las variantes de 7B. La RTX 5090 es exagerada a menos que ejecutes modelos de 70B en producción.

¿Qué cuantización debo usar?

Empieza con Q4_K_M (4-bit) -- buen equilibrio entre calidad y velocidad en todo el hardware. Usa Q5_K_M si tienes margen de VRAM y necesitas mayor calidad. Q3_K_S para dispositivos con recursos limitados.

¿Cuál es mejor para programación?

Qwen3 8B (~76% HumanEval) para el nivel de 8 GB. Qwen 3.6 27B (77,2% SWE-bench) para la mejor programación densa. Devstral Small 24B para flujos de trabajo agentivos en múltiples archivos. Codestral 22B para autocompletado en IDE (FIM).

Fuentes

Qwen Team. (2026). Qwen3 Technical Report. -- Benchmarks de la familia Qwen3, SWE-bench de Qwen 3.6 27B (77,2%), variantes MoE.
Meta AI. (2025). Llama 4 Model Card. -- Benchmark oficial y arquitectura de Llama 4 Scout/Maverick MoE, ventana de contexto de 10M.
Mistral AI. (2026). Devstral Small 24B. -- Arquitectura y benchmarks del modelo de programación agentiva.
Mistral AI. (2025). Codestral. -- Modelo de programación optimizado FIM para autocompletado en IDE.
Meta AI. (2024). Llama 3.3 Model Card. -- Datos de benchmark oficiales de Llama 3.3 70B (legado, aún muy usado).

Registro de actualizaciones

2026-05-17: Añadida la sección "Referencia de benchmarks heredados" comparando Mistral Small 24B, Qwen 2.5 14B y Llama 3.1 8B. Título actualizado para conectar búsquedas de modelos heredados y actuales.

¿Ya elegiste tu modelo? Aquí tienes cómo ejecutar Qwen en local, paso a paso.

Ejecutar Qwen en local — Guía de configuración completa →

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs