Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/10 Mejores LLMs de Código Abierto para Ollama en 2026 (Clasificados y Probados)
Best Models

10 Mejores LLMs de Código Abierto para Ollama en 2026 (Clasificados y Probados)

·9 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Los modelos más descargados en Ollama en 2026 son Llama 4 Scout (mejor en general, MoE), Qwen3 (mayor crecimiento, mejor en programación), Gemma 4 (tool calling, visión), Mistral (el más eficiente) y DeepSeek-R1 (mejor en razonamiento). Novedades de mayo de 2026: Kimi K2.6 (programación de primer nivel), Qwen 3.6 27B (77,2% SWE-bench) y GLM-5.1.

Los modelos más descargados en Ollama en 2026 son Llama 4 Scout y Llama 3.x (los más populares en general), Qwen3 (el de mayor crecimiento, mejor en programación), Gemma 4 (mejor para agentes y tool calling), Mistral (el más eficiente) y DeepSeek-R1 (mejor en razonamiento). Novedades de mayo de 2026: Kimi K2.6 (MoE, licencia MIT, programación de primer nivel), Qwen 3.6 (77,2% SWE-bench) y GLM-5.1.

Slide Deck: 10 Mejores LLMs de Código Abierto para Ollama en 2026 (Clasificados y Probados)

La presentación a continuación cubre: top 10 modelos Ollama por número de descargas, comparación de rendimiento (60-74% HumanEval), mejores modelos por caso de uso (chat, programación, razonamiento, visión), razonamiento chain-of-thought de DeepSeek-R1 y comandos exactos de descarga. Descarga el PDF como tu tarjeta de referencia para selección de modelos Ollama.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • Más descargados: Llama 3.2 3B (tutoriales) y Llama 4 Scout (mejor calidad) -- soporte más amplio de herramientas.
  • Mejor razonamiento: DeepSeek-R1 7B y 14B -- modelo de razonamiento chain-of-thought, significativamente superior a modelos estándar en matemáticas y lógica.
  • Mejor programación: Kimi K2.6 (MoE de frontera), Qwen 3.6 27B (mejor denso), Devstral Small 24B (mejor agéntico) -- benchmarks más altos en sus tamaños.
  • Mejor comprensión de imágenes: Gemma 4 9B (visión + tool calling) y Llama 3.2 Vision 11B -- ambos admiten entrada de imágenes localmente.
  • A partir de mayo de 2026, la biblioteca de Ollama contiene más de 4.500 modelos. Todos disponibles mediante `ollama pull <nombre>`.

Novedades en Ollama — Actualización de junio de 2026

Versión actual de Ollama: v0.22.1 (lanzada el 3 de mayo de 2026). Esta es la última versión estable disponible en ollama.com/download.

Último lanzamiento (3 de mayo de 2026): Ollama v0.22.1 añadió soporte completo para Gemma 4 con capacidades de pensamiento y tool calling. La versión incluyó mejoras en el manejo de cuantización y optimizaciones de inferencia de modelos. Consulta GitHub para notas de versión detalladas en github.com/ollama/ollama/releases.

Nuevos modelos añadidos (mayo-junio de 2026):

  • Kimi K2.6 (Moonshot AI, mayo de 2026) — Primer modelo no occidental en alcanzar el Nivel A en benchmarks de programación (87/100 en el mundo real). Arquitectura MoE (42B activos / 1T total). Licencia MIT. Descarga: `ollama pull kimi-k2.6`
  • Qwen 3.6 27B (Alibaba, mayo de 2026) — Mejor modelo de programación denso con 77,2% SWE-bench. Requiere 22 GB de VRAM. Descarga: `ollama pull qwen3.6:27b`
  • GLM-5.1 (Zhipu AI, mayo de 2026) — Líder en generación de código estructurado en SWE-Bench Pro. Descarga: `ollama pull glm-5.1`
  • Gemma 4 (Google, 2 de abril de 2026) — Primera combinación de visión + tool calling. Soporte de visión para comprensión de imágenes. 6 GB de VRAM. Descarga: `ollama pull gemma4:9b`
bash
# Update Ollama to latest version
curl https://ollama.ai/install.sh | sh

# Or on Mac: brew upgrade ollama

# Check your current version
ollama --version  # outputs: ollama version 0.22.1

# Pull the latest new models
ollama pull kimi-k2.6
ollama pull qwen3.6:27b
ollama pull glm-5.1

¿Qué modelos de Ollama funcionan mejor para tu caso de uso?

La calidad de la salida de un modelo depende en gran medida de cómo lo usas con prompts. Para técnicas estructuradas que funcionan con todos los modelos locales — incluyendo chain-of-thought, ejemplos few-shot y formato de salida — consulta la guía de prompt engineering. Para tareas de razonamiento, el prompt de chain-of-thought mejora significativamente la calidad de salida de DeepSeek-R1 y Qwen3. Para entender los compromisos de cuantización de estos modelos, consulta la guía de cuantización →. Para determinar cuánta VRAM necesita cada modelo, consulta la guía de requisitos de VRAM →. Para flujos de trabajo de agentes con Gemma 4, consulta Tree-of-Thought y ReAct. Para requisitos de hardware para ejecutar estos modelos, consulta la guía de hardware →. Una vez que un modelo con tool calling de esta lista esté integrado en un bucle de varios pasos con acceso a archivos y bases de datos, consulta Agentes de IA locales con MCP para el patrón de orquestación de código abierto.

  • Chat general (principiante): `ollama run llama3.2:3b` -- mayor documentación, mejor modelo inicial con soporte.
  • Chat general (calidad): `ollama run llama4:scout` -- arquitectura MoE, ~10 GB de VRAM. Para máquinas de 8 GB, usa `ollama run llama3.2:3b`.
  • Programación en 8 GB: `ollama run qwen3:8b` -- Mejor modelo local de programación para máquinas con 8 GB de VRAM. 76% HumanEval, 5 GB usados, multilingüe.
  • Inferencia general en 8 GB (si no es programación): `ollama run mistral:7b` -- Modelo de propósito general más rápido a 8 GB, 40-60 tok/seg.
  • Programación (mejor agéntico, 24B): `ollama run devstral-small:24b` -- Mejor modelo de programación agéntico (ediciones de múltiples archivos, depuración). 16 GB de RAM. De Mistral AI.
  • Programación (mejor denso, 27B): `ollama run qwen3.6:27b` -- 77,2% SWE-bench. Mejor modelo de programación denso. 22 GB de VRAM.
  • Programación (MoE de frontera): `ollama run kimi-k2.6` -- 87/100 en programación del mundo real, nivel superior. MoE (42B activos/1T total). Licencia MIT. Necesita cuantización para hardware de consumo.
  • Tareas de agentes y tool calling: `ollama run gemma4:9b` -- Lanzado el 2 de abril de 2026. Tool calling integrado + soporte de visión. Recomendado para agentes locales, llamadas a funciones y salida estructurada. 6 GB de RAM.
  • Razonamiento y matemáticas: `ollama run deepseek-r1:7b` -- modelo chain-of-thought, mejor rendimiento matemático local a 7B.
  • Multilingüe: `ollama run qwen3:7b` -- 29+ idiomas nativos, soporte no inglés más sólido, 76% HumanEval.
  • Comprensión de imágenes: `ollama run gemma4:9b` -- visión + tool calling (mayo de 2026). O `ollama run llama3.2-vision:11b` para visión dedicada.
  • Rápido y ligero: `ollama run gemma2:2b` -- inferencia CPU más rápida, 1,7 GB de RAM.
  • Alta calidad (16 GB de RAM): `ollama run mistral-small3.1` -- calidad cercana a 70B con 14 GB de RAM.
  • Generación de embeddings: `ollama run nomic-embed-text` -- modelo de embeddings de 137M de parámetros para pipelines RAG.
  • Q&A de documentos (RAG): `ollama run llama3.2` con la función RAG de Open WebUI -- combinación mejor soportada.
Selección de modelos Ollama por caso de uso: 3 categorías con 10 modelos. Elige llama4:scout para chat, qwen3.6:27b (77,2% SWE-bench) para programación, deepseek-r1:7b para matemáticas.
Selección de modelos Ollama por caso de uso: 3 categorías con 10 modelos. Elige llama4:scout para chat, qwen3.6:27b (77,2% SWE-bench) para programación, deepseek-r1:7b para matemáticas.

Nuevos modelos Ollama — Lanzamientos de mayo de 2026

Confirma la disponibilidad con `ollama pull <modelo>` antes de construir flujos de trabajo. Los nuevos modelos aparecen en la biblioteca de Ollama a los pocos días de su lanzamiento en ollama.com/library.

ModeloLanzamientoMejor paraComando Ollama
kimi-k2.6Mayo de 2026Programación de primer nivel, MoE (42B/1T), licencia MITollama run kimi-k2.6
qwen3.6:27bMayo de 2026Mejor modelo de programación denso, 77,2% SWE-benchollama run qwen3.6:27b
glm-5.1Mayo de 2026Generación de código estructurado, líder SWE-Bench Proollama run glm-5.1
deepseek-v4-flashAbril/mayo de 2026Programación económica (78/100 en el mundo real)ollama run deepseek-v4-flash
gemma4:9b2 de abril de 2026Tareas de agentes, tool calling, visiónollama run gemma4:9b
qwen3:7bMayo de 2026HumanEval 76% a 7B, multilingüeollama run qwen3:7b

¿Qué es DeepSeek-R1 y por qué es diferente?

DeepSeek-R1 es un modelo de razonamiento -- a diferencia de los modelos de chat estándar que generan respuestas directamente, DeepSeek-R1 genera razonamiento explícito de cadena de pensamiento antes de su respuesta final. Esto mejora significativamente el rendimiento en matemáticas, acertijos de lógica y resolución de problemas paso a paso.

DeepSeek-R1 7B obtiene un 52% en MATH (matemáticas de competición) frente al 28% de Mistral 7B del mismo tamaño. Es más lento que los modelos estándar (más tokens por respuesta) pero significativamente más preciso en tareas donde el razonamiento importa.

bash
# Pull and run DeepSeek-R1
ollama run deepseek-r1:7b

# Larger variants for better quality
ollama run deepseek-r1:14b   # 10 GB RAM
ollama run deepseek-r1:32b   # 20 GB RAM
DeepSeek-R1 7B vs Mistral 7B: 52% vs 28% en MATH. Modelo de razonamiento chain-of-thought -- más lento, precisión significativamente mayor.
DeepSeek-R1 7B vs Mistral 7B: 52% vs 28% en MATH. Modelo de razonamiento chain-of-thought -- más lento, precisión significativamente mayor.

¿Qué modelos de Ollama admiten entrada de imágenes?

A partir de mayo de 2026, estos modelos en Ollama admiten entrada de imágenes (multimodal): Gemma 4 admite tanto visión COMO tool calling — único entre los modelos de visión en Ollama.

ModeloRAMSoporte de imágenesComando Ollama
llama3.2-vision:11b~8 GBollama run llama3.2-vision:11b
llama3.2-vision:90b~55 GBollama run llama3.2-vision:90b
gemma3:9b (vision)~6 GBollama run gemma3:9b
minicpm-v:8b~5,5 GBollama run minicpm-v
gemma4:9b~6 GBSí + Tool Calling ✓ollama run gemma4:9b
5 modelos de visión de Ollama para entrada de imágenes. Gemma 4 9B (6 GB) ahora incluye tool calling. Llama 3.2 Vision 11B (8 GB) para visión dedicada. Todos locales.
5 modelos de visión de Ollama para entrada de imágenes. Gemma 4 9B (6 GB) ahora incluye tool calling. Llama 3.2 Vision 11B (8 GB) para visión dedicada. Todos locales.

¿Cuáles son los 10 mejores modelos de código abierto en Ollama?

Los recuentos de descargas siguen favoreciendo a Llama 3.x y Qwen 2.5 por la prevalencia de tutoriales. Para nuevos proyectos en mayo de 2026, prefiere Llama 4 Scout, Qwen3 y Gemma 4.

#ModeloMejor paraRAMHumanEval
1Llama 3.2 3BPrimer modelo, chat general2,5 GB60%
2Llama 4 Scout 17BMejor calidad general, MoE~10 GB85%
3Qwen3 8BActualizado, multilingüe + programación5,5 GB76%
4Devstral Small 24BProgramación agéntica (multichivo)16 GB80%
5deepseek-r1:7bRazonamiento, matemáticas5 GB
6Mistral 7B v0.3Uso en UE, eficiente4,5 GB39%
7mistral-small3.1Calidad en 16 GB14 GB74%
8gemma2:2bRápido, poca RAM1,7 GB
9gemma4:9bVisión + tool calling6 GB
10phi4-miniRazonamiento, 4 GB de RAM2,5 GB70%
Top 10 modelos Ollama: RAM desde 1,7 GB (gemma2:2b) hasta 16 GB (Devstral). Preferidos para nuevos proyectos en mayo de 2026: Llama 4 Scout, Qwen3, Gemma 4.
Top 10 modelos Ollama: RAM desde 1,7 GB (gemma2:2b) hasta 16 GB (Devstral). Preferidos para nuevos proyectos en mayo de 2026: Llama 4 Scout, Qwen3, Gemma 4.

¿Cómo explorar la biblioteca de modelos de Ollama?

Hay dos formas de trabajar con los modelos de Ollama. Cambiar modelos instalados: En la app de Ollama para Mac, haz clic en el botón desplegable de modelo en la parte inferior del campo de entrada del chat (muestra el nombre del modelo actual, p. ej. "gemma3:1b") para cambiar entre cualquier modelo instalado localmente. Encontrar y descargar nuevos modelos: Visita ollama.com/library para explorar más de 4.500 modelos por categoría, luego usa los comandos CLI a continuación para descargarlos y gestionarlos.

bash
# List all locally downloaded models
ollama list

# Search for a model and pull it
ollama pull qwen2.5-coder:32b

# See all available tags for a model
ollama show qwen2.5

# Remove a model to free disk space
ollama rm llama3.2:3b

Modelos Ollama de código abierto: contexto regional

UE / Cumplimiento de GDPR + Licencias. Para organizaciones de la UE que despliegan modelos de Ollama en producción, la elección de licencia importa tanto como el rendimiento. Apache 2.0 (completamente abierto, uso comercial permitido): Mistral 7B, Mistral Small 3.1, Qwen3 7B, Qwen 3.6 27B, Devstral Small 24B, Gemma 2 2B. Meta Llama Community Licence (uso comercial restringido por encima de 700M de usuarios activos mensuales): Llama 3.1 8B, Llama 3.2 3B, Llama 3.2 Vision 11B. MIT (uso comercial permitido): DeepSeek-R1 7B, DeepSeek-R1 14B, Kimi K2.6. Para empresas europeas en sectores regulados, los modelos Mistral (Francia, Apache 2.0) o Devstral Small 24B (mejor programación agéntica) son la opción predeterminada recomendada -- origen europeo, licencia limpia, sin restricciones para despliegue comercial. Para el cumplimiento del GDPR: todos los modelos se ejecutan completamente en las instalaciones del usuario a través de Ollama, lo que significa que no se transmiten datos personales a servidores externos independientemente del modelo elegido.

Japón (METI). Para despliegues empresariales japoneses de Ollama, Qwen3 / Qwen 3.6 es la familia de modelos recomendada -- la tokenización nativa de japonés procesa texto japonés entre un 30-40% más eficientemente en tokens que Llama o Mistral, reduciendo directamente el tiempo de inferencia y los requisitos de caché KV. Para flujos de trabajo de programación en japonés: Qwen 3.6 27B (77,2% SWE-bench) maneja comentarios de código en japonés de forma nativa y es el mejor modelo de programación denso en 2026. La documentación de gobernanza de IA de METI requiere indicar la versión exacta del modelo. Usa `ollama show <modelo>` para obtener la especificación completa del modelo incluyendo el recuento de parámetros, nivel de cuantización y longitud de contexto para registros de cumplimiento.

China. Bajo las Medidas de IA Generativa de la CAC de China (2023), las organizaciones que prestan servicios de IA a usuarios finales deben registrar los modelos utilizados. Qwen3 / Qwen 3.6 (Alibaba, Apache 2.0) es la opción recomendada para despliegues empresariales chinos de Ollama -- origen chino, licencia Apache 2.0, mejor rendimiento en tareas en chino y benchmarks superiores. Kimi K2.6 (Moonshot AI, licencia MIT, 42B activos/1T total MoE) también está disponible como opción de programación de primer nivel con origen chino. Comandos: `ollama run qwen3.6:27b` para mejor calidad, `ollama run qwen3:7b` para velocidad. DeepSeek-R1 (DeepSeek, licencia MIT) es apropiado para tareas de razonamiento. Para datos procesados localmente a través de Ollama, los requisitos de transferencia transfronteriza de datos de la PIPL de China no se aplican -- la inferencia permanece en las instalaciones del usuario.

¿Cuáles son los errores comunes al elegir modelos de Ollama?

Descargar el tag de modelo más grande por defecto sin verificar la RAM

Ejecutar `ollama pull llama3.3` sin especificar un tag descarga la variante predeterminada, que suele ser la cuantización estándar más grande. En una máquina con 8 GB de RAM, descargar llama3.3 (70B a ~40 GB) fallará o causará un uso severo de swap. Siempre especifica la variante: `ollama pull llama3.2:3b` para máquinas de 8 GB.

Usar un modelo general cuando existe un modelo específico para la tarea

Para tareas de programación, `qwen2.5-coder:7b` obtiene un 72% en HumanEval mientras que el general `qwen2.5:7b` también obtiene un 72% -- pero `qwen2.5-coder` incluye soporte FIM para completado de código. Para razonamiento/matemáticas, `deepseek-r1:7b` obtiene 52% en MATH frente al 28% de `mistral:7b`. Los modelos específicos de tarea existen en la biblioteca de Ollama por una razón.

No verificar que un modelo está disponible antes de construir un flujo de trabajo

La biblioteca de Ollama cambia con el tiempo -- los modelos se añaden y ocasionalmente se eliminan. Antes de construir un pipeline de producción en torno a un modelo específico, confirma que está en la biblioteca (`ollama list` localmente, o consulta ollama.com/library). Fija versiones específicas de modelos en flujos de trabajo de producción: `ollama pull llama3.1:8b-instruct-q4_K_M`.

No especificar un tag de cuantización para modelos grandes

Ejecutar `ollama pull qwen2.5-coder:32b` sin un sufijo de cuantización descarga la variante predeterminada -- que puede ser mayor de lo que tu VRAM puede manejar. Para 16 GB de VRAM, descarga la variante explícita Q4_K_M: `ollama pull qwen2.5-coder:32b-instruct-q4_K_M`. Ejecuta `ollama show <modelo>` después de descargar para confirmar que los requisitos de VRAM coinciden con tu hardware.

Esperar que DeepSeek-R1 sea tan rápido como los modelos de chat estándar

DeepSeek-R1 genera tokens de razonamiento chain-of-thought explícito antes de su respuesta final -- por eso supera a los modelos estándar en matemáticas y lógica, pero produce entre 3 y 5 veces más tokens por respuesta. Para chat rápido o respuestas de una línea, usa `llama3.1:8b`. Reserva DeepSeek-R1 para tareas donde la precisión del razonamiento importa más que la velocidad.

Preguntas frecuentes sobre modelos de código abierto en Ollama

¿Cuántos modelos hay en la biblioteca de Ollama?

A partir de mayo de 2026, la biblioteca de Ollama contiene aproximadamente más de 4.500 modelos (contribuciones curadas + de la comunidad) con soporte oficial. Hugging Face aloja miles de modelos GGUF adicionales que se pueden cargar mediante Ollama usando Modelfiles personalizados.

¿Puedo usar modelos de Hugging Face directamente en Ollama?

Sí. Descarga un archivo GGUF de Hugging Face y crea un Modelfile: `FROM ./model.gguf`. Luego ejecuta `ollama create mimodelo -f Modelfile`. Esto funciona para cualquier archivo GGUF incluyendo ajustes finos y modelos que no están en la biblioteca oficial de Ollama.

¿Qué modelo de Ollama es mejor para construir un chatbot local?

Para un chatbot local de propósito general: `llama4:scout` con 12 GB de VRAM (mejor calidad, MoE), o `llama3.2:3b` con 8 GB de RAM (punto de entrada más sencillo). Para uso de mayor calidad: `mistral-small3.1` con 16 GB de RAM. Para un chatbot asistente de programación: `qwen3.6:27b` (mejor modelo de programación, 77,2% SWE-bench) o `devstral-small:24b` (programación agéntica). Combínalo con Open WebUI para una interfaz web que se conecta a la API de Ollama en localhost:11434.

¿Son todos los modelos de Ollama verdaderamente de código abierto?

No todos. La biblioteca de Ollama incluye modelos con licencias variadas. Llama 3.x/4.x usan la Meta Llama Community Licence (no aprobada por OSI como código abierto -- restringe el uso comercial por encima de 700M de usuarios activos mensuales). Mistral 7B, Qwen3, Qwen 3.6, Devstral y los modelos Gemma son Apache 2.0 (completamente de código abierto). Kimi K2.6 tiene licencia MIT (completamente compatible con uso comercial). Siempre verifica la licencia antes del despliegue comercial.

¿Qué modelo de embeddings debería usar con Ollama para RAG?

`nomic-embed-text` es la opción estándar -- un modelo de 137M de parámetros que genera embeddings de 768 dimensiones, se ejecuta en milisegundos por documento y está específicamente diseñado para tareas de recuperación. Descárgalo con `ollama pull nomic-embed-text`. Úsalo con el RAG integrado de Open WebUI, OllamaEmbeddings de LangChain o LlamaIndex.

¿Con qué frecuencia se actualiza la biblioteca de Ollama con nuevos modelos?

El equipo de Ollama añade nuevos modelos en días o semanas tras los lanzamientos principales. Kimi K2.6 y Qwen 3.6 aparecieron a los pocos días de sus lanzamientos de mayo de 2026. Ollama v0.22.1 (3 de mayo de 2026) añadió mejoras de renderizado de Gemma 4. Sigue el repositorio GitHub de Ollama (github.com/ollama/ollama) o la cuenta de Twitter/X de Ollama para anuncios de nuevos modelos.

¿Cuál es la diferencia entre `ollama pull` y `ollama run`?

`ollama pull` descarga el archivo del modelo al almacenamiento local (operación única). `ollama run` inicia una sesión interactiva inmediatamente después de descargar, o reutiliza el modelo ya descargado si está disponible. Puedes descargar una vez y ejecutar múltiples veces sin volver a descargar.

¿Puedo ejecutar varios modelos simultáneamente en la misma máquina?

Sí, si tu hardware tiene suficiente VRAM. Usa ventanas de terminal o sesiones de shell separadas -- una ventana ejecuta `ollama run llama3.2` mientras otra ejecuta `ollama run qwen2.5:7b`. Ollama gestiona automáticamente el uso compartido de VRAM. Monitorea `nvidia-smi` o la actividad del sistema para evitar sobrecargas.

¿Cómo actualizo un modelo a la última versión?

`ollama pull [nombre-del-modelo]` verifica las actualizaciones y descarga la última versión si está disponible. Para revertir o usar versiones específicas, usa tags de versión: `ollama pull llama3.1:8b` o `ollama pull llama3.1:8b-instruct-q4_K_M`. Comprueba las versiones disponibles con `ollama show [nombre-del-modelo]`.

¿Los modelos de código abierto en Ollama son realmente gratuitos para uso comercial?

La mayoría sí, pero no todos. Llama 3.x (Meta Llama Community Licence) restringe el uso comercial por encima de 700M de usuarios activos mensuales. Mistral 7B, Qwen2.5 y Gemma 3 usan Apache 2.0 (completamente compatible con uso comercial). Verifica siempre la licencia antes del despliegue empresarial -- consulta la página de Hugging Face del modelo o la entrada de la biblioteca de Ollama.

Fuentes

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Mejores Modelos Ollama 2026: Top 10 LLMs de Código Abierto