Key Takeaways
- `ollama pull <model>` -- Descarga un modelo (p. ej., `ollama pull llama3.2:3b`).
- `ollama run <model>` -- Inicia un chat con un modelo.
- `ollama list` -- Muestra todos los modelos descargados y sus tamaños.
- `ollama rm <model>` -- Elimina un modelo descargado.
- `ollama serve` -- Inicia el servidor API de Ollama (se ejecuta automáticamente en Mac/Windows).
- `ollama create <name> -f <modelfile>` -- Construye un modelo personalizado desde un Modelfile.
- A partir de abril de 2026, estos comandos son estables y cubren todos los casos de uso comunes.
¿Cuáles son los comandos esenciales de Ollama?
- `ollama list` -- Muestra los modelos descargados, el uso del disco y la fecha de modificación.
- `ollama pull <model>` -- Descarga un modelo por nombre (p. ej., `ollama pull mistral`).
- `ollama run <model>` -- Inicia una sesión de chat con un modelo.
- `ollama rm <model>` -- Elimina un modelo y libera espacio en disco.
- `ollama serve` -- Inicia el servidor API REST (normalmente se ejecuta automáticamente).
- `ollama help` -- Muestra todos los comandos disponibles.
¿Cómo se gestionan los modelos en Ollama?
La gestión de modelos en Ollama es completamente por comandos:
# Listar todos los modelos descargados
ollama list
# Descargar un modelo desde la biblioteca de Ollama
ollama pull llama3.2:3b # Versión 7-bit (~2.5 GB)
ollama pull llama3.2:3b-fp16 # Precisión completa (~6.5 GB)
# Descargar cuantización específica
ollama pull qwen2.5:7b-q4 # Cuantización 4-bit
ollama pull qwen2.5:7b-q8 # Cuantización 8-bit
# Ver uso del disco
du -sh ~/.ollama/models
# Eliminar un modelo
ollama rm llama3.2:3b
# Descargar desde registro personalizado (avanzado)
ollama pull localhost:5000/custom-model¿Cómo se ejecutan y sirven los modelos?
Hay dos formas de usar Ollama:
# 1. Chat interactivo (CLI)
ollama run llama3.2:3b
# Escribe tus prompts y presiona Enter
# 2. Iniciar el servidor API (se ejecuta en segundo plano)
ollama serve
# La API escucha en http://localhost:11434/v1
# 3. Usar el modelo vía API desde otra terminal
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [{"role": "user", "content": "Hola"}]
}'¿Cómo se crean modelos personalizados con Modelfiles?
Un Modelfile es un archivo de configuración (como un Dockerfile) que define un modelo personalizado partiendo de un modelo base y añadiendo system prompts, parámetros y pesos.
# Crear un archivo llamado Modelfile
FROM llama3.2:3b
# Añadir un system prompt
SYSTEM """
Eres un experto útil en aprendizaje automático.
Siempre explica conceptos complejos en términos simples.
"""
# Ajustar parámetros
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# Construir el modelo personalizado
ollama create ml-expert -f Modelfile
# Usarlo
ollama run ml-expert¿Qué opciones de cuantización soporta Ollama?
La cuantización reduce el tamaño del modelo y la VRAM usando números de menor precisión. Ollama soporta el formato GGUF con múltiples cuantizaciones:
| Cuantización | Tamaño (7B) | VRAM | Calidad | Velocidad |
|---|---|---|---|---|
| FP16 (precisión completa) | 14 GB | 16 GB | Mejor | Más lenta |
| Q8_0 (8-bit) | 7 GB | 8 GB | Excelente | Rápida |
| Q6_K (6-bit) | 5.5 GB | 6 GB | Muy buena | Rápida |
| Q5_K_M (5-bit) | 5 GB | 5.5 GB | Buena | Muy rápida |
| Q4_K_M (4-bit) | 4.7 GB | 5 GB | Buena | Muy rápida |
| Q3_K_M (3-bit) | 3.3 GB | 4 GB | Aceptable | Más rápida |
¿Cómo se generan embeddings con Ollama?
Los embeddings son representaciones numéricas de texto, útiles para RAG (Generación Aumentada por Recuperación) y búsqueda semántica.
# Descargar un modelo de embeddings
ollama pull nomic-embed-text # Mejor para inglés, 137M params
# Generar embeddings
curl http://localhost:11434/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"model": "nomic-embed-text",
"input": "The quick brown fox jumps"
}'
# La respuesta incluye embeddings como vector de 768 dimensiones¿Qué variables de entorno controlan Ollama?
Variables de entorno clave:
- `OLLAMA_HOST` -- Dirección de escucha (por defecto: 127.0.0.1:11434). Establece `0.0.0.0:11434` para acceso en red.
- `OLLAMA_MODELS` -- Dónde almacenar los modelos (por defecto: `~/.ollama/models`).
- `OLLAMA_DEBUG` -- Establece en `1` para registros detallados.
- `OLLAMA_GPU` -- GPU a usar (por defecto: detección automática). Establece `cuda` o `rocm`.
- `OLLAMA_KEEP_ALIVE` -- Cuánto tiempo mantener el modelo en memoria (por defecto: 5 minutos).
Errores comunes con los comandos de Ollama
- Olvidar las etiquetas del modelo. `ollama pull llama3.2` descarga la versión más grande; `ollama pull llama3.2:3b` descarga la versión 3B.
- No saber que `ollama serve` se ejecuta automáticamente. En Mac y Windows, Ollama inicia la API automáticamente al abrir la app. En Linux, puede ser necesario iniciarlo manualmente.
- Descargar la cuantización incorrecta. Siempre especifica la etiqueta exacta del modelo (p. ej., `qwen2.5:7b-q4`) para controlar el uso de VRAM.
- Esperar que Ollama funcione sin conexión tras la descarga. Ollama en sí funciona sin conexión, pero los modelos deben descargarse con conexión a internet.
Preguntas frecuentes sobre los comandos de Ollama
¿Dónde se almacenan los modelos de Ollama?
Por defecto: `~/.ollama/models` en macOS/Linux o `%USERPROFILE%\.ollama\models` en Windows. Establece `OLLAMA_MODELS` para cambiar la ubicación.
¿Puedo mover modelos entre computadoras?
Sí. Copia los archivos del modelo desde `~/.ollama/models` al directorio `~/.ollama/models` de otra computadora; `ollama list` los reconocerá automáticamente.
¿Cómo veo el uso de memoria de los modelos activos?
Usa `ollama ps` para listar los modelos actualmente cargados. Los modelos se descargan de memoria tras 5 minutos de inactividad por defecto.
¿Puedo ejecutar varios modelos simultáneamente?
Sí, pero comparten VRAM. Ejecutar dos modelos 8B requiere 16 GB de VRAM. Cada modelo adicional aumenta el uso de memoria.
¿Cuál es la diferencia entre GGUF y otros formatos de modelo?
GGUF está cuantizado, es eficiente y funciona en CPU/GPU. Es el estándar para LLMs locales. Otros formatos (safetensors, PyTorch .bin) requieren más VRAM y no están optimizados para inferencia local.
¿Cómo uso los modelos de Ollama en mi propia aplicación?
`ollama serve` inicia una API compatible con OpenAI en `localhost:11434`. Usa cualquier SDK de OpenAI (Python, Node.js, etc.) apuntando a esa URL para enviar solicitudes y recibir respuestas.
Fuentes
- GitHub de Ollama -- github.com/ollama/ollama
- Documentación de Ollama -- github.com/ollama/ollama/blob/main/docs
- Biblioteca de modelos de Ollama -- ollama.ai/library