Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Instalar Ollama: Configuración en 2 Minutos para macOS, Windows y Linux
Getting Started

Instalar Ollama: Configuración en 2 Minutos para macOS, Windows y Linux

·8 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Ollama se instala en menos de 2 minutos en macOS, Windows y Linux. Tras la instalación, un solo comando descarga y ejecuta cualquier modelo de la biblioteca de Ollama -- sin entorno Python, sin archivos de configuración y sin necesidad de GPU para empezar.

Ollama se instala en menos de 2 minutos en macOS, Windows y Linux. Tras la instalación, un solo comando descarga y ejecuta cualquier modelo de la biblioteca de Ollama -- sin entorno Python, sin archivos de configuración y sin necesidad de GPU para empezar. A partir de abril de 2026, Ollama admite más de 200 modelos, incluidos Meta Llama 3.3, Qwen2.5 y Mistral.

Key Takeaways

  • macOS: descarga el .dmg desde ollama.com o ejecuta `brew install ollama` -- luego `ollama run llama3.2` para empezar a chatear.
  • Windows: descarga el instalador desde ollama.com/download. Ollama se ejecuta como servicio en segundo plano en la bandeja del sistema.
  • Linux: un solo comando curl lo instala todo -- `curl -fsSL https://ollama.com/install.sh | sh`.
  • Requisitos mínimos: 4 GB de RAM para un modelo 3B, 8 GB de RAM para un modelo 7B. No se necesita GPU para empezar.
  • Ollama expone una API REST compatible con OpenAI en `http://localhost:11434` -- cualquier app con el SDK de OpenAI puede usarla sin cambios en el código.
  • 👉 Antes de instalar, confirma que la ejecución local es la opción adecuada para tu caso de uso — consulta LLM local vs API en la nube para saber cuándo la nube supera a la inferencia local.

Antes de instalar: ¿Es el LLM local la opción correcta para tu caso de uso?

Instalar Ollama tarda 5 minutos, pero ejecutar correctamente tu primer modelo puede llevar 20-40 minutos si encuentras problemas de detección de GPU, incompatibilidades de controladores o limitaciones de RAM.

Si no estás seguro de si la inferencia local es la opción correcta para ti, **compara primero los pros y contras completos entre local y nube** — puede que descubras que empezar con una API en la nube (lista en 5 minutos, sin necesidad de solucionar problemas) es el camino más inteligente. Muchos usuarios lo descubren después de instalar; es mejor decidirlo ahora.

Para los usuarios comprometidos con la ejecución local, continúa a continuación. Para los que evalúan primero la nube, consulta la comparación completa.

¿Qué es Ollama y por qué usarlo?

Ollama es un motor de inferencia de código abierto que ejecuta grandes modelos de lenguaje de forma local. Integra la gestión de modelos, el backend de inferencia llama.cpp y una API REST compatible con OpenAI en una sola aplicación ligera. Sin Python, sin entorno conda y sin configuración de CUDA.

Ollama mantiene una biblioteca de modelos curada (ollama.com/library) con descargas en un solo comando para Meta Llama 3.1, Microsoft Phi-3, Google Gemma 2, Mistral, Qwen2.5 y más de 100 modelos adicionales. Un modelo se descarga una vez y se almacena en caché en disco -- las ejecuciones posteriores arrancan en menos de 5 segundos.

Para ver alternativas a Ollama, consulta Instaladores de LLM local con un clic. Para comparar Ollama con LM Studio, consulta Cómo instalar LM Studio.

¿Cómo se instala Ollama en macOS?

Hay dos métodos. La descarga del instalador es más rápida; Homebrew es mejor si gestionas el software con brew.

  1. 1
    Ve a ollama.com/download y haz clic en "Descargar para macOS".
  2. 2
    Abre el archivo Ollama.dmg descargado y arrastra Ollama a tu carpeta de Aplicaciones.
  3. 3
    Abre Ollama desde Aplicaciones. Aparece un icono de llama en tu barra de menú -- Ollama ya se está ejecutando como servicio en segundo plano.
  4. 4
    Abre Terminal y ejecuta tu primer modelo: `ollama run llama3.2`
  5. 5
    El modelo se descarga (~2 GB para llama3.2:3b) y aparece un prompt de chat. Escribe un mensaje y pulsa Enter.

Instalar Ollama en macOS con Homebrew

bash
brew install ollama

# Start the Ollama service
ollama serve &

# Pull and run a model
ollama run llama3.2

¿Cómo se instala Ollama en Windows?

  1. 1
    Ve a ollama.com/download y haz clic en "Descargar para Windows".
  2. 2
    Ejecuta el instalador OllamaSetup.exe descargado. Ollama se instala en %LOCALAPPDATA%\Programs\Ollama.
  3. 3
    Ollama arranca automáticamente y aparece como icono en la bandeja del sistema.
  4. 4
    Abre PowerShell o el Símbolo del sistema y ejecuta: `ollama run llama3.2`
  5. 5
    El modelo se descarga en la primera ejecución. Las ejecuciones posteriores usan el modelo en caché.

Soporte de GPU en Windows

Ollama en Windows detecta y utiliza automáticamente las GPU NVIDIA (CUDA 11.3+) y AMD (ROCm 6+). Si tienes una tarjeta NVIDIA RTX, Ollama descargará las capas del modelo a la VRAM automáticamente -- sin necesidad de configuración manual. Para verificar que se está usando la GPU, ejecuta `ollama run llama3.2` y comprueba el Administrador de tareas → GPU para ver la actividad.

¿Cómo se instala Ollama en Linux?

Un solo comando instala Ollama en cualquier distribución de Linux:

bash
curl -fsSL https://ollama.com/install.sh | sh

Ejecutar Ollama como servicio systemd en Linux

El script de instalación registra Ollama automáticamente como servicio systemd. Para gestionarlo:

bash
# Check service status
systemctl status ollama

# Start / stop / restart
systemctl start ollama
systemctl stop ollama
systemctl restart ollama

# View logs
journalctl -u ollama -f

¿Cómo se descarga y ejecuta el primer modelo en Ollama?

Después de instalar Ollama, ejecuta este comando para descargar e iniciar un modelo:

bash
# Pull a model (downloads to ~/.ollama/models)
ollama pull llama3.2

# Run it interactively
ollama run llama3.2

# Or pull and run in one step
ollama run llama3.2

¿Con qué modelo deberías empezar?

Para una primera ejecución, estos tres modelos cubren diferentes perfiles de hardware:

ModeloTamaño de descargaRAM necesariaMejor para
Llama 3.2 3B~2 GB4 GBPrimera prueba -- cualquier máquina
Llama 3.1 8B~4.7 GB8 GBUso general en la mayoría de portátiles
phi4-mini~2.3 GB4 GBRespuestas rápidas, poca RAM

¿Cómo verificas que Ollama está funcionando?

Prueba la API REST directamente para confirmar que Ollama se está ejecutando y es accesible:

bash
# Check Ollama is running
curl http://localhost:11434
# Expected: "Ollama is running"

# List downloaded models
ollama list

# Send a prompt via API (OpenAI-compatible)
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "What is 2+2?",
  "stream": false
}'

Comandos útiles de Ollama

ComandoQué hace
ollama listMuestra todos los modelos descargados y sus tamaños
ollama pull <model>Descarga un modelo sin ejecutarlo
ollama rm <model>Elimina un modelo del disco
ollama psMuestra los modelos cargados actualmente en memoria
ollama show <model>Muestra los detalles del modelo (parámetros, plantilla, licencia)
ollama serveInicia el servidor de Ollama manualmente (si no se ejecuta como servicio)

Solución de problemas comunes de instalación de Ollama

Ollama dice "could not connect to ollama app, is it running?"

Ollama no se está ejecutando como servicio en segundo plano. En macOS: abre la app de Ollama desde Aplicaciones. En Linux: ejecuta `systemctl start ollama` o `ollama serve` en un terminal. En Windows: abre Ollama desde el menú Inicio.

La descarga del modelo es muy lenta o se ha detenido

Las descargas de modelos son grandes (2-47 GB). Si la descarga se detiene, pulsa Ctrl+C y vuelve a ejecutar `ollama pull <model>` -- Ollama reanuda las descargas parciales. Para descargas más rápidas, usa una conexión por cable en lugar de Wi-Fi.

Aparece el error "error: model requires more system memory" al ejecutar un modelo

El modelo es demasiado grande para la RAM disponible. Prueba una cuantización menor: `ollama run llama3.2-instruct-q4_0` en lugar del Q4_K_M predeterminado. O cambia a un modelo más pequeño como `llama3.2:3b`. Consulta Los mejores modelos LLM locales para principiantes para obtener recomendaciones ajustadas a la RAM.

Ollama está en ejecución pero no se usa la GPU

En Windows, verifica que el controlador de NVIDIA sea la versión 452.39 o superior. En Linux, confirma que el NVIDIA container toolkit está instalado (`nvidia-smi` debe devolver información de la GPU). Ollama descarga las capas a la GPU automáticamente cuando hay VRAM disponible -- ejecuta `ollama ps` después de iniciar un modelo para ver la utilización de la GPU.

¿Dónde se almacenan los archivos de modelo de Ollama?

Los modelos se almacenan en ~/.ollama/models en macOS y Linux. En Windows, la ruta predeterminada es C:\Users\<username>\.ollama\models. Puedes cambiar la ubicación de almacenamiento configurando la variable de entorno OLLAMA_MODELS antes de iniciar el servicio.

¿Qué hacer después de instalar Ollama?

Una vez que Ollama está en ejecución, el siguiente paso es Ejecutar tu primer LLM local para entender el prompting, la longitud del contexto y qué esperar de la velocidad de inferencia local. Para elegir el mejor modelo para tu hardware, consulta Los mejores modelos LLM locales para principiantes. Si prefieres una interfaz de chat gráfica en lugar del terminal, Cómo instalar LM Studio cubre la alternativa de aplicación de escritorio.

Fuentes

  • Sitio web oficial de Ollama -- Descargas de instalación y documentación oficial
  • Repositorio de Ollama en GitHub -- Código fuente, issues y discusiones de la comunidad
  • Biblioteca de modelos de Ollama -- Colección curada de modelos disponibles con enlaces de descarga

Errores comunes al instalar Ollama

  • No comprobar que Ollama se está ejecutando como servicio en segundo plano antes de esperar que la API responda.
  • Intentar ejecutar modelos más grandes que la RAM disponible sin comprobar primero los requisitos de memoria.
  • Ignorar la detección de GPU -- Ollama admite NVIDIA y AMD pero requiere controladores actualizados.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Instalar Ollama: Configuración en 2 Minutos para macOS, Windows y Linux