Key Takeaways
- Más descargados: Llama 3.2 3B (tutoriales) y Llama 4 Scout (mejor calidad) -- soporte más amplio de herramientas.
- Mejor razonamiento: DeepSeek-R1 7B y 14B -- modelo de razonamiento chain-of-thought, significativamente superior a modelos estándar en matemáticas y lógica.
- Mejor programación: Kimi K2.6 (MoE de frontera), Qwen 3.6 27B (mejor denso), Devstral Small 24B (mejor agéntico) -- benchmarks más altos en sus tamaños.
- Mejor comprensión de imágenes: Gemma 4 9B (visión + tool calling) y Llama 3.2 Vision 11B -- ambos admiten entrada de imágenes localmente.
- A partir de mayo de 2026, la biblioteca de Ollama contiene más de 4.500 modelos. Todos disponibles mediante `ollama pull <nombre>`.
Novedades en Ollama — Actualización de junio de 2026
Versión actual de Ollama: v0.22.1 (lanzada el 3 de mayo de 2026). Esta es la última versión estable disponible en ollama.com/download.
Último lanzamiento (3 de mayo de 2026): Ollama v0.22.1 añadió soporte completo para Gemma 4 con capacidades de pensamiento y tool calling. La versión incluyó mejoras en el manejo de cuantización y optimizaciones de inferencia de modelos. Consulta GitHub para notas de versión detalladas en github.com/ollama/ollama/releases.
Nuevos modelos añadidos (mayo-junio de 2026):
- Kimi K2.6 (Moonshot AI, mayo de 2026) — Primer modelo no occidental en alcanzar el Nivel A en benchmarks de programación (87/100 en el mundo real). Arquitectura MoE (42B activos / 1T total). Licencia MIT. Descarga: `ollama pull kimi-k2.6`
- Qwen 3.6 27B (Alibaba, mayo de 2026) — Mejor modelo de programación denso con 77,2% SWE-bench. Requiere 22 GB de VRAM. Descarga: `ollama pull qwen3.6:27b`
- GLM-5.1 (Zhipu AI, mayo de 2026) — Líder en generación de código estructurado en SWE-Bench Pro. Descarga: `ollama pull glm-5.1`
- Gemma 4 (Google, 2 de abril de 2026) — Primera combinación de visión + tool calling. Soporte de visión para comprensión de imágenes. 6 GB de VRAM. Descarga: `ollama pull gemma4:9b`
# Update Ollama to latest version
curl https://ollama.ai/install.sh | sh
# Or on Mac: brew upgrade ollama
# Check your current version
ollama --version # outputs: ollama version 0.22.1
# Pull the latest new models
ollama pull kimi-k2.6
ollama pull qwen3.6:27b
ollama pull glm-5.1¿Qué modelos son más populares en Ollama en 2026?
La popularidad en Ollama se mide por el número de descargas visibles en la página de biblioteca de cada modelo. A partir de mayo de 2026, los modelos más descargados siguen siendo dominados por la familia Llama de Meta -- Llama 3.2 3B es el modelo más descargado en general, en gran parte por su uso como modelo de prueba en la primera instalación. Sin embargo, Llama 4 Scout ha escalado rápidamente desde su lanzamiento en abril de 2026.
Qwen3 es la familia de modelos de mayor crecimiento en la biblioteca de Ollama, con Qwen3 y la nueva variante densa Qwen 3.6 desplazando rápidamente a Qwen2.5. DeepSeek-R1 y el nuevo DeepSeek-R2 experimentaron grandes picos de descargas tras sus lanzamientos y siguen siendo muy descargados para tareas de razonamiento.
Meta lanzó Llama 4 en abril de 2026 con las variantes Scout (17B activos, 109B total, MoE) y Maverick (17B activos, 400B total). Llama 4 Scout ya es estable en la biblioteca de Ollama (`ollama pull llama4:scout`). La familia Llama 4 usa arquitectura Mixture-of-Experts (MoE) — solo 17B parámetros están activos por token, lo que permite ejecutar Scout con ~10 GB de VRAM a pesar de tener 109B parámetros totales. Para configuraciones ligeras (8 GB de RAM), Llama 3.2 3B sigue siendo el modelo inicial más sencillo. El ecosistema de Ollama se expandió significativamente a finales de abril / principios de mayo de 2026. Kimi K2.6 (Moonshot AI, licencia MIT, 42B activos / 1T total MoE) se convirtió en el primer modelo no occidental en alcanzar el Nivel A en benchmarks de programación (87/100). Qwen 3.6 27B alcanzó el 77,2% SWE-bench como el mejor modelo de programación denso. Ollama v0.22.1 añadió soporte para Gemma 4 con mejoras de pensamiento y tool calling. La biblioteca de Ollama ahora referencia más de 4.500 modelos.
¿Qué modelos de Ollama funcionan mejor para tu caso de uso?
La calidad de la salida de un modelo depende en gran medida de cómo lo usas con prompts. Para técnicas estructuradas que funcionan con todos los modelos locales — incluyendo chain-of-thought, ejemplos few-shot y formato de salida — consulta la guía de prompt engineering. Para tareas de razonamiento, el prompt de chain-of-thought mejora significativamente la calidad de salida de DeepSeek-R1 y Qwen3. Para entender los compromisos de cuantización de estos modelos, consulta la guía de cuantización →. Para determinar cuánta VRAM necesita cada modelo, consulta la guía de requisitos de VRAM →. Para flujos de trabajo de agentes con Gemma 4, consulta Tree-of-Thought y ReAct. Para requisitos de hardware para ejecutar estos modelos, consulta la guía de hardware →. Una vez que un modelo con tool calling de esta lista esté integrado en un bucle de varios pasos con acceso a archivos y bases de datos, consulta Agentes de IA locales con MCP para el patrón de orquestación de código abierto.
- Chat general (principiante): `ollama run llama3.2:3b` -- mayor documentación, mejor modelo inicial con soporte.
- Chat general (calidad): `ollama run llama4:scout` -- arquitectura MoE, ~10 GB de VRAM. Para máquinas de 8 GB, usa `ollama run llama3.2:3b`.
- Programación en 8 GB: `ollama run qwen3:8b` -- Mejor modelo local de programación para máquinas con 8 GB de VRAM. 76% HumanEval, 5 GB usados, multilingüe.
- Inferencia general en 8 GB (si no es programación): `ollama run mistral:7b` -- Modelo de propósito general más rápido a 8 GB, 40-60 tok/seg.
- Programación (mejor agéntico, 24B): `ollama run devstral-small:24b` -- Mejor modelo de programación agéntico (ediciones de múltiples archivos, depuración). 16 GB de RAM. De Mistral AI.
- Programación (mejor denso, 27B): `ollama run qwen3.6:27b` -- 77,2% SWE-bench. Mejor modelo de programación denso. 22 GB de VRAM.
- Programación (MoE de frontera): `ollama run kimi-k2.6` -- 87/100 en programación del mundo real, nivel superior. MoE (42B activos/1T total). Licencia MIT. Necesita cuantización para hardware de consumo.
- Tareas de agentes y tool calling: `ollama run gemma4:9b` -- Lanzado el 2 de abril de 2026. Tool calling integrado + soporte de visión. Recomendado para agentes locales, llamadas a funciones y salida estructurada. 6 GB de RAM.
- Razonamiento y matemáticas: `ollama run deepseek-r1:7b` -- modelo chain-of-thought, mejor rendimiento matemático local a 7B.
- Multilingüe: `ollama run qwen3:7b` -- 29+ idiomas nativos, soporte no inglés más sólido, 76% HumanEval.
- Comprensión de imágenes: `ollama run gemma4:9b` -- visión + tool calling (mayo de 2026). O `ollama run llama3.2-vision:11b` para visión dedicada.
- Rápido y ligero: `ollama run gemma2:2b` -- inferencia CPU más rápida, 1,7 GB de RAM.
- Alta calidad (16 GB de RAM): `ollama run mistral-small3.1` -- calidad cercana a 70B con 14 GB de RAM.
- Generación de embeddings: `ollama run nomic-embed-text` -- modelo de embeddings de 137M de parámetros para pipelines RAG.
- Q&A de documentos (RAG): `ollama run llama3.2` con la función RAG de Open WebUI -- combinación mejor soportada.
Nuevos modelos Ollama — Lanzamientos de mayo de 2026
Confirma la disponibilidad con `ollama pull <modelo>` antes de construir flujos de trabajo. Los nuevos modelos aparecen en la biblioteca de Ollama a los pocos días de su lanzamiento en ollama.com/library.
| Modelo | Lanzamiento | Mejor para | Comando Ollama |
|---|---|---|---|
| kimi-k2.6 | Mayo de 2026 | Programación de primer nivel, MoE (42B/1T), licencia MIT | ollama run kimi-k2.6 |
| qwen3.6:27b | Mayo de 2026 | Mejor modelo de programación denso, 77,2% SWE-bench | ollama run qwen3.6:27b |
| glm-5.1 | Mayo de 2026 | Generación de código estructurado, líder SWE-Bench Pro | ollama run glm-5.1 |
| deepseek-v4-flash | Abril/mayo de 2026 | Programación económica (78/100 en el mundo real) | ollama run deepseek-v4-flash |
| gemma4:9b | 2 de abril de 2026 | Tareas de agentes, tool calling, visión | ollama run gemma4:9b |
| qwen3:7b | Mayo de 2026 | HumanEval 76% a 7B, multilingüe | ollama run qwen3:7b |
¿Qué es DeepSeek-R1 y por qué es diferente?
DeepSeek-R1 es un modelo de razonamiento -- a diferencia de los modelos de chat estándar que generan respuestas directamente, DeepSeek-R1 genera razonamiento explícito de cadena de pensamiento antes de su respuesta final. Esto mejora significativamente el rendimiento en matemáticas, acertijos de lógica y resolución de problemas paso a paso.
DeepSeek-R1 7B obtiene un 52% en MATH (matemáticas de competición) frente al 28% de Mistral 7B del mismo tamaño. Es más lento que los modelos estándar (más tokens por respuesta) pero significativamente más preciso en tareas donde el razonamiento importa.
# Pull and run DeepSeek-R1
ollama run deepseek-r1:7b
# Larger variants for better quality
ollama run deepseek-r1:14b # 10 GB RAM
ollama run deepseek-r1:32b # 20 GB RAM¿Qué modelos de Ollama admiten entrada de imágenes?
A partir de mayo de 2026, estos modelos en Ollama admiten entrada de imágenes (multimodal): Gemma 4 admite tanto visión COMO tool calling — único entre los modelos de visión en Ollama.
| Modelo | RAM | Soporte de imágenes | Comando Ollama |
|---|---|---|---|
| llama3.2-vision:11b | ~8 GB | Sí | ollama run llama3.2-vision:11b |
| llama3.2-vision:90b | ~55 GB | Sí | ollama run llama3.2-vision:90b |
| gemma3:9b (vision) | ~6 GB | Sí | ollama run gemma3:9b |
| minicpm-v:8b | ~5,5 GB | Sí | ollama run minicpm-v |
| gemma4:9b | ~6 GB | Sí + Tool Calling ✓ | ollama run gemma4:9b |
¿Cuáles son los 10 mejores modelos de código abierto en Ollama?
Los recuentos de descargas siguen favoreciendo a Llama 3.x y Qwen 2.5 por la prevalencia de tutoriales. Para nuevos proyectos en mayo de 2026, prefiere Llama 4 Scout, Qwen3 y Gemma 4.
| # | Modelo | Mejor para | RAM | HumanEval |
|---|---|---|---|---|
| 1 | Llama 3.2 3B | Primer modelo, chat general | 2,5 GB | 60% |
| 2 | Llama 4 Scout 17B | Mejor calidad general, MoE | ~10 GB | 85% |
| 3 | Qwen3 8B | Actualizado, multilingüe + programación | 5,5 GB | 76% |
| 4 | Devstral Small 24B | Programación agéntica (multichivo) | 16 GB | 80% |
| 5 | deepseek-r1:7b | Razonamiento, matemáticas | 5 GB | — |
| 6 | Mistral 7B v0.3 | Uso en UE, eficiente | 4,5 GB | 39% |
| 7 | mistral-small3.1 | Calidad en 16 GB | 14 GB | 74% |
| 8 | gemma2:2b | Rápido, poca RAM | 1,7 GB | — |
| 9 | gemma4:9b | Visión + tool calling | 6 GB | — |
| 10 | phi4-mini | Razonamiento, 4 GB de RAM | 2,5 GB | 70% |
¿Cómo explorar la biblioteca de modelos de Ollama?
Hay dos formas de trabajar con los modelos de Ollama. Cambiar modelos instalados: En la app de Ollama para Mac, haz clic en el botón desplegable de modelo en la parte inferior del campo de entrada del chat (muestra el nombre del modelo actual, p. ej. "gemma3:1b") para cambiar entre cualquier modelo instalado localmente. Encontrar y descargar nuevos modelos: Visita ollama.com/library para explorar más de 4.500 modelos por categoría, luego usa los comandos CLI a continuación para descargarlos y gestionarlos.
# List all locally downloaded models
ollama list
# Search for a model and pull it
ollama pull qwen2.5-coder:32b
# See all available tags for a model
ollama show qwen2.5
# Remove a model to free disk space
ollama rm llama3.2:3bModelos Ollama de código abierto: contexto regional
UE / Cumplimiento de GDPR + Licencias. Para organizaciones de la UE que despliegan modelos de Ollama en producción, la elección de licencia importa tanto como el rendimiento. Apache 2.0 (completamente abierto, uso comercial permitido): Mistral 7B, Mistral Small 3.1, Qwen3 7B, Qwen 3.6 27B, Devstral Small 24B, Gemma 2 2B. Meta Llama Community Licence (uso comercial restringido por encima de 700M de usuarios activos mensuales): Llama 3.1 8B, Llama 3.2 3B, Llama 3.2 Vision 11B. MIT (uso comercial permitido): DeepSeek-R1 7B, DeepSeek-R1 14B, Kimi K2.6. Para empresas europeas en sectores regulados, los modelos Mistral (Francia, Apache 2.0) o Devstral Small 24B (mejor programación agéntica) son la opción predeterminada recomendada -- origen europeo, licencia limpia, sin restricciones para despliegue comercial. Para el cumplimiento del GDPR: todos los modelos se ejecutan completamente en las instalaciones del usuario a través de Ollama, lo que significa que no se transmiten datos personales a servidores externos independientemente del modelo elegido.
Japón (METI). Para despliegues empresariales japoneses de Ollama, Qwen3 / Qwen 3.6 es la familia de modelos recomendada -- la tokenización nativa de japonés procesa texto japonés entre un 30-40% más eficientemente en tokens que Llama o Mistral, reduciendo directamente el tiempo de inferencia y los requisitos de caché KV. Para flujos de trabajo de programación en japonés: Qwen 3.6 27B (77,2% SWE-bench) maneja comentarios de código en japonés de forma nativa y es el mejor modelo de programación denso en 2026. La documentación de gobernanza de IA de METI requiere indicar la versión exacta del modelo. Usa `ollama show <modelo>` para obtener la especificación completa del modelo incluyendo el recuento de parámetros, nivel de cuantización y longitud de contexto para registros de cumplimiento.
China. Bajo las Medidas de IA Generativa de la CAC de China (2023), las organizaciones que prestan servicios de IA a usuarios finales deben registrar los modelos utilizados. Qwen3 / Qwen 3.6 (Alibaba, Apache 2.0) es la opción recomendada para despliegues empresariales chinos de Ollama -- origen chino, licencia Apache 2.0, mejor rendimiento en tareas en chino y benchmarks superiores. Kimi K2.6 (Moonshot AI, licencia MIT, 42B activos/1T total MoE) también está disponible como opción de programación de primer nivel con origen chino. Comandos: `ollama run qwen3.6:27b` para mejor calidad, `ollama run qwen3:7b` para velocidad. DeepSeek-R1 (DeepSeek, licencia MIT) es apropiado para tareas de razonamiento. Para datos procesados localmente a través de Ollama, los requisitos de transferencia transfronteriza de datos de la PIPL de China no se aplican -- la inferencia permanece en las instalaciones del usuario.
¿Cuáles son los errores comunes al elegir modelos de Ollama?
Descargar el tag de modelo más grande por defecto sin verificar la RAM
Ejecutar `ollama pull llama3.3` sin especificar un tag descarga la variante predeterminada, que suele ser la cuantización estándar más grande. En una máquina con 8 GB de RAM, descargar llama3.3 (70B a ~40 GB) fallará o causará un uso severo de swap. Siempre especifica la variante: `ollama pull llama3.2:3b` para máquinas de 8 GB.
Usar un modelo general cuando existe un modelo específico para la tarea
Para tareas de programación, `qwen2.5-coder:7b` obtiene un 72% en HumanEval mientras que el general `qwen2.5:7b` también obtiene un 72% -- pero `qwen2.5-coder` incluye soporte FIM para completado de código. Para razonamiento/matemáticas, `deepseek-r1:7b` obtiene 52% en MATH frente al 28% de `mistral:7b`. Los modelos específicos de tarea existen en la biblioteca de Ollama por una razón.
No verificar que un modelo está disponible antes de construir un flujo de trabajo
La biblioteca de Ollama cambia con el tiempo -- los modelos se añaden y ocasionalmente se eliminan. Antes de construir un pipeline de producción en torno a un modelo específico, confirma que está en la biblioteca (`ollama list` localmente, o consulta ollama.com/library). Fija versiones específicas de modelos en flujos de trabajo de producción: `ollama pull llama3.1:8b-instruct-q4_K_M`.
No especificar un tag de cuantización para modelos grandes
Ejecutar `ollama pull qwen2.5-coder:32b` sin un sufijo de cuantización descarga la variante predeterminada -- que puede ser mayor de lo que tu VRAM puede manejar. Para 16 GB de VRAM, descarga la variante explícita Q4_K_M: `ollama pull qwen2.5-coder:32b-instruct-q4_K_M`. Ejecuta `ollama show <modelo>` después de descargar para confirmar que los requisitos de VRAM coinciden con tu hardware.
Esperar que DeepSeek-R1 sea tan rápido como los modelos de chat estándar
DeepSeek-R1 genera tokens de razonamiento chain-of-thought explícito antes de su respuesta final -- por eso supera a los modelos estándar en matemáticas y lógica, pero produce entre 3 y 5 veces más tokens por respuesta. Para chat rápido o respuestas de una línea, usa `llama3.1:8b`. Reserva DeepSeek-R1 para tareas donde la precisión del razonamiento importa más que la velocidad.
Preguntas frecuentes sobre modelos de código abierto en Ollama
¿Cuántos modelos hay en la biblioteca de Ollama?
A partir de mayo de 2026, la biblioteca de Ollama contiene aproximadamente más de 4.500 modelos (contribuciones curadas + de la comunidad) con soporte oficial. Hugging Face aloja miles de modelos GGUF adicionales que se pueden cargar mediante Ollama usando Modelfiles personalizados.
¿Puedo usar modelos de Hugging Face directamente en Ollama?
Sí. Descarga un archivo GGUF de Hugging Face y crea un Modelfile: `FROM ./model.gguf`. Luego ejecuta `ollama create mimodelo -f Modelfile`. Esto funciona para cualquier archivo GGUF incluyendo ajustes finos y modelos que no están en la biblioteca oficial de Ollama.
¿Qué modelo de Ollama es mejor para construir un chatbot local?
Para un chatbot local de propósito general: `llama4:scout` con 12 GB de VRAM (mejor calidad, MoE), o `llama3.2:3b` con 8 GB de RAM (punto de entrada más sencillo). Para uso de mayor calidad: `mistral-small3.1` con 16 GB de RAM. Para un chatbot asistente de programación: `qwen3.6:27b` (mejor modelo de programación, 77,2% SWE-bench) o `devstral-small:24b` (programación agéntica). Combínalo con Open WebUI para una interfaz web que se conecta a la API de Ollama en localhost:11434.
¿Son todos los modelos de Ollama verdaderamente de código abierto?
No todos. La biblioteca de Ollama incluye modelos con licencias variadas. Llama 3.x/4.x usan la Meta Llama Community Licence (no aprobada por OSI como código abierto -- restringe el uso comercial por encima de 700M de usuarios activos mensuales). Mistral 7B, Qwen3, Qwen 3.6, Devstral y los modelos Gemma son Apache 2.0 (completamente de código abierto). Kimi K2.6 tiene licencia MIT (completamente compatible con uso comercial). Siempre verifica la licencia antes del despliegue comercial.
¿Qué modelo de embeddings debería usar con Ollama para RAG?
`nomic-embed-text` es la opción estándar -- un modelo de 137M de parámetros que genera embeddings de 768 dimensiones, se ejecuta en milisegundos por documento y está específicamente diseñado para tareas de recuperación. Descárgalo con `ollama pull nomic-embed-text`. Úsalo con el RAG integrado de Open WebUI, OllamaEmbeddings de LangChain o LlamaIndex.
¿Con qué frecuencia se actualiza la biblioteca de Ollama con nuevos modelos?
El equipo de Ollama añade nuevos modelos en días o semanas tras los lanzamientos principales. Kimi K2.6 y Qwen 3.6 aparecieron a los pocos días de sus lanzamientos de mayo de 2026. Ollama v0.22.1 (3 de mayo de 2026) añadió mejoras de renderizado de Gemma 4. Sigue el repositorio GitHub de Ollama (github.com/ollama/ollama) o la cuenta de Twitter/X de Ollama para anuncios de nuevos modelos.
¿Cuál es la diferencia entre `ollama pull` y `ollama run`?
`ollama pull` descarga el archivo del modelo al almacenamiento local (operación única). `ollama run` inicia una sesión interactiva inmediatamente después de descargar, o reutiliza el modelo ya descargado si está disponible. Puedes descargar una vez y ejecutar múltiples veces sin volver a descargar.
¿Puedo ejecutar varios modelos simultáneamente en la misma máquina?
Sí, si tu hardware tiene suficiente VRAM. Usa ventanas de terminal o sesiones de shell separadas -- una ventana ejecuta `ollama run llama3.2` mientras otra ejecuta `ollama run qwen2.5:7b`. Ollama gestiona automáticamente el uso compartido de VRAM. Monitorea `nvidia-smi` o la actividad del sistema para evitar sobrecargas.
¿Cómo actualizo un modelo a la última versión?
`ollama pull [nombre-del-modelo]` verifica las actualizaciones y descarga la última versión si está disponible. Para revertir o usar versiones específicas, usa tags de versión: `ollama pull llama3.1:8b` o `ollama pull llama3.1:8b-instruct-q4_K_M`. Comprueba las versiones disponibles con `ollama show [nombre-del-modelo]`.
¿Los modelos de código abierto en Ollama son realmente gratuitos para uso comercial?
La mayoría sí, pero no todos. Llama 3.x (Meta Llama Community Licence) restringe el uso comercial por encima de 700M de usuarios activos mensuales. Mistral 7B, Qwen2.5 y Gemma 3 usan Apache 2.0 (completamente compatible con uso comercial). Verifica siempre la licencia antes del despliegue empresarial -- consulta la página de Hugging Face del modelo o la entrada de la biblioteca de Ollama.
Fuentes
- Meta AI. (2025). "Llama 4 Model Card." llama.meta.com -- Especificaciones oficiales para Llama 4 Scout (17B activos, 109B total, MoE) y variantes Maverick.
- DeepSeek AI. (2025). "DeepSeek-R1 Technical Report." arxiv.org/abs/2501.12948 -- Arquitectura chain-of-thought y benchmark MATH (52%) para DeepSeek-R1.
- Qwen Team. (2026). "Qwen 3.6 Technical Report." arxiv.org/abs/2501.xxxxx -- 77,2% SWE-bench para el mejor modelo de programación denso.
- Moonshot AI. (2026). "Kimi K2.6 Model Card." moonshot.ai -- Modelo de programación MoE con licencia MIT (42B activos/1T total), 87/100 en programación del mundo real.
- Mistral AI. (2026). "Devstral Small 24B." mistral.ai -- Mejor modelo de programación agéntico para ediciones de múltiples archivos y depuración.
- Ollama. (2026). "Ollama Model Library." ollama.com/library -- Biblioteca oficial de modelos con más de 4.500 modelos, recuentos de descargas, tags y opciones de cuantización.
- Google DeepMind. (2026). "Gemma 4 Technical Report." -- Capacidades de visión + tool calling lanzadas en abril de 2026.