Key Takeaways
- macOS: descarga el .dmg desde ollama.com o ejecuta `brew install ollama` -- luego `ollama run llama3.2` para empezar a chatear.
- Windows: descarga el instalador desde ollama.com/download. Ollama se ejecuta como servicio en segundo plano en la bandeja del sistema.
- Linux: un solo comando curl lo instala todo -- `curl -fsSL https://ollama.com/install.sh | sh`.
- Requisitos mínimos: 4 GB de RAM para un modelo 3B, 8 GB de RAM para un modelo 7B. No se necesita GPU para empezar.
- Ollama expone una API REST compatible con OpenAI en `http://localhost:11434` -- cualquier app con el SDK de OpenAI puede usarla sin cambios en el código.
- 👉 Antes de instalar, confirma que la ejecución local es la opción adecuada para tu caso de uso — consulta LLM local vs API en la nube para saber cuándo la nube supera a la inferencia local.
Antes de instalar: ¿Es el LLM local la opción correcta para tu caso de uso?
Instalar Ollama tarda 5 minutos, pero ejecutar correctamente tu primer modelo puede llevar 20-40 minutos si encuentras problemas de detección de GPU, incompatibilidades de controladores o limitaciones de RAM.
Si no estás seguro de si la inferencia local es la opción correcta para ti, **compara primero los pros y contras completos entre local y nube** — puede que descubras que empezar con una API en la nube (lista en 5 minutos, sin necesidad de solucionar problemas) es el camino más inteligente. Muchos usuarios lo descubren después de instalar; es mejor decidirlo ahora.
Para los usuarios comprometidos con la ejecución local, continúa a continuación. Para los que evalúan primero la nube, consulta la comparación completa.
¿Qué es Ollama y por qué usarlo?
Ollama es un motor de inferencia de código abierto que ejecuta grandes modelos de lenguaje de forma local. Integra la gestión de modelos, el backend de inferencia llama.cpp y una API REST compatible con OpenAI en una sola aplicación ligera. Sin Python, sin entorno conda y sin configuración de CUDA.
Ollama mantiene una biblioteca de modelos curada (ollama.com/library) con descargas en un solo comando para Meta Llama 3.1, Microsoft Phi-3, Google Gemma 2, Mistral, Qwen2.5 y más de 100 modelos adicionales. Un modelo se descarga una vez y se almacena en caché en disco -- las ejecuciones posteriores arrancan en menos de 5 segundos.
Para ver alternativas a Ollama, consulta Instaladores de LLM local con un clic. Para comparar Ollama con LM Studio, consulta Cómo instalar LM Studio.
¿Cómo se instala Ollama en macOS?
Hay dos métodos. La descarga del instalador es más rápida; Homebrew es mejor si gestionas el software con brew.
- 1Ve a ollama.com/download y haz clic en "Descargar para macOS".
- 2Abre el archivo Ollama.dmg descargado y arrastra Ollama a tu carpeta de Aplicaciones.
- 3Abre Ollama desde Aplicaciones. Aparece un icono de llama en tu barra de menú -- Ollama ya se está ejecutando como servicio en segundo plano.
- 4Abre Terminal y ejecuta tu primer modelo: `ollama run llama3.2`
- 5El modelo se descarga (~2 GB para llama3.2:3b) y aparece un prompt de chat. Escribe un mensaje y pulsa Enter.
Instalar Ollama en macOS con Homebrew
brew install ollama
# Start the Ollama service
ollama serve &
# Pull and run a model
ollama run llama3.2¿Cómo se instala Ollama en Windows?
- 1Ve a ollama.com/download y haz clic en "Descargar para Windows".
- 2Ejecuta el instalador OllamaSetup.exe descargado. Ollama se instala en %LOCALAPPDATA%\Programs\Ollama.
- 3Ollama arranca automáticamente y aparece como icono en la bandeja del sistema.
- 4Abre PowerShell o el Símbolo del sistema y ejecuta: `ollama run llama3.2`
- 5El modelo se descarga en la primera ejecución. Las ejecuciones posteriores usan el modelo en caché.
Soporte de GPU en Windows
Ollama en Windows detecta y utiliza automáticamente las GPU NVIDIA (CUDA 11.3+) y AMD (ROCm 6+). Si tienes una tarjeta NVIDIA RTX, Ollama descargará las capas del modelo a la VRAM automáticamente -- sin necesidad de configuración manual. Para verificar que se está usando la GPU, ejecuta `ollama run llama3.2` y comprueba el Administrador de tareas → GPU para ver la actividad.
¿Cómo se instala Ollama en Linux?
Un solo comando instala Ollama en cualquier distribución de Linux:
curl -fsSL https://ollama.com/install.sh | shEjecutar Ollama como servicio systemd en Linux
El script de instalación registra Ollama automáticamente como servicio systemd. Para gestionarlo:
# Check service status
systemctl status ollama
# Start / stop / restart
systemctl start ollama
systemctl stop ollama
systemctl restart ollama
# View logs
journalctl -u ollama -f¿Cómo se descarga y ejecuta el primer modelo en Ollama?
Después de instalar Ollama, ejecuta este comando para descargar e iniciar un modelo:
# Pull a model (downloads to ~/.ollama/models)
ollama pull llama3.2
# Run it interactively
ollama run llama3.2
# Or pull and run in one step
ollama run llama3.2¿Con qué modelo deberías empezar?
Para una primera ejecución, estos tres modelos cubren diferentes perfiles de hardware:
| Modelo | Tamaño de descarga | RAM necesaria | Mejor para |
|---|---|---|---|
| Llama 3.2 3B | ~2 GB | 4 GB | Primera prueba -- cualquier máquina |
| Llama 3.1 8B | ~4.7 GB | 8 GB | Uso general en la mayoría de portátiles |
| phi4-mini | ~2.3 GB | 4 GB | Respuestas rápidas, poca RAM |
¿Cómo verificas que Ollama está funcionando?
Prueba la API REST directamente para confirmar que Ollama se está ejecutando y es accesible:
# Check Ollama is running
curl http://localhost:11434
# Expected: "Ollama is running"
# List downloaded models
ollama list
# Send a prompt via API (OpenAI-compatible)
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "What is 2+2?",
"stream": false
}'Comandos útiles de Ollama
| Comando | Qué hace |
|---|---|
| ollama list | Muestra todos los modelos descargados y sus tamaños |
| ollama pull <model> | Descarga un modelo sin ejecutarlo |
| ollama rm <model> | Elimina un modelo del disco |
| ollama ps | Muestra los modelos cargados actualmente en memoria |
| ollama show <model> | Muestra los detalles del modelo (parámetros, plantilla, licencia) |
| ollama serve | Inicia el servidor de Ollama manualmente (si no se ejecuta como servicio) |
Solución de problemas comunes de instalación de Ollama
Ollama dice "could not connect to ollama app, is it running?"
Ollama no se está ejecutando como servicio en segundo plano. En macOS: abre la app de Ollama desde Aplicaciones. En Linux: ejecuta `systemctl start ollama` o `ollama serve` en un terminal. En Windows: abre Ollama desde el menú Inicio.
La descarga del modelo es muy lenta o se ha detenido
Las descargas de modelos son grandes (2-47 GB). Si la descarga se detiene, pulsa Ctrl+C y vuelve a ejecutar `ollama pull <model>` -- Ollama reanuda las descargas parciales. Para descargas más rápidas, usa una conexión por cable en lugar de Wi-Fi.
Aparece el error "error: model requires more system memory" al ejecutar un modelo
El modelo es demasiado grande para la RAM disponible. Prueba una cuantización menor: `ollama run llama3.2-instruct-q4_0` en lugar del Q4_K_M predeterminado. O cambia a un modelo más pequeño como `llama3.2:3b`. Consulta Los mejores modelos LLM locales para principiantes para obtener recomendaciones ajustadas a la RAM.
Ollama está en ejecución pero no se usa la GPU
En Windows, verifica que el controlador de NVIDIA sea la versión 452.39 o superior. En Linux, confirma que el NVIDIA container toolkit está instalado (`nvidia-smi` debe devolver información de la GPU). Ollama descarga las capas a la GPU automáticamente cuando hay VRAM disponible -- ejecuta `ollama ps` después de iniciar un modelo para ver la utilización de la GPU.
¿Dónde se almacenan los archivos de modelo de Ollama?
Los modelos se almacenan en ~/.ollama/models en macOS y Linux. En Windows, la ruta predeterminada es C:\Users\<username>\.ollama\models. Puedes cambiar la ubicación de almacenamiento configurando la variable de entorno OLLAMA_MODELS antes de iniciar el servicio.
¿Qué hacer después de instalar Ollama?
Una vez que Ollama está en ejecución, el siguiente paso es Ejecutar tu primer LLM local para entender el prompting, la longitud del contexto y qué esperar de la velocidad de inferencia local. Para elegir el mejor modelo para tu hardware, consulta Los mejores modelos LLM locales para principiantes. Si prefieres una interfaz de chat gráfica en lugar del terminal, Cómo instalar LM Studio cubre la alternativa de aplicación de escritorio.
Fuentes
- Sitio web oficial de Ollama -- Descargas de instalación y documentación oficial
- Repositorio de Ollama en GitHub -- Código fuente, issues y discusiones de la comunidad
- Biblioteca de modelos de Ollama -- Colección curada de modelos disponibles con enlaces de descarga
Errores comunes al instalar Ollama
- No comprobar que Ollama se está ejecutando como servicio en segundo plano antes de esperar que la API responda.
- Intentar ejecutar modelos más grandes que la RAM disponible sin comprobar primero los requisitos de memoria.
- Ignorar la detección de GPU -- Ollama admite NVIDIA y AMD pero requiere controladores actualizados.