Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Guía de Comandos de Ollama: Todos los Comandos Explicados (2026)
Tools & Interfaces

Guía de Comandos de Ollama: Todos los Comandos Explicados (2026)

·11 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Ollama es una herramienta de línea de comandos, y entender sus comandos la hace mucho más poderosa. Esta guía cubre los comandos esenciales: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` y opciones avanzadas como la cuantización de modelos y Modelfiles personalizados.

Ollama es una herramienta de línea de comandos, y entender sus comandos la hace mucho más poderosa. Esta guía cubre los comandos esenciales: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` y opciones avanzadas como la cuantización de modelos y Modelfiles personalizados. A partir de abril de 2026, estos comandos cubren el 95% de los casos de uso del mundo real.

Key Takeaways

  • `ollama pull <model>` -- Descarga un modelo (p. ej., `ollama pull llama3.2:3b`).
  • `ollama run <model>` -- Inicia un chat con un modelo.
  • `ollama list` -- Muestra todos los modelos descargados y sus tamaños.
  • `ollama rm <model>` -- Elimina un modelo descargado.
  • `ollama serve` -- Inicia el servidor API de Ollama (se ejecuta automáticamente en Mac/Windows).
  • `ollama create <name> -f <modelfile>` -- Construye un modelo personalizado desde un Modelfile.
  • A partir de abril de 2026, estos comandos son estables y cubren todos los casos de uso comunes.

¿Cuáles son los comandos esenciales de Ollama?

  • `ollama list` -- Muestra los modelos descargados, el uso del disco y la fecha de modificación.
  • `ollama pull <model>` -- Descarga un modelo por nombre (p. ej., `ollama pull mistral`).
  • `ollama run <model>` -- Inicia una sesión de chat con un modelo.
  • `ollama rm <model>` -- Elimina un modelo y libera espacio en disco.
  • `ollama serve` -- Inicia el servidor API REST (normalmente se ejecuta automáticamente).
  • `ollama help` -- Muestra todos los comandos disponibles.

¿Cómo se gestionan los modelos en Ollama?

La gestión de modelos en Ollama es completamente por comandos:

bash
# Listar todos los modelos descargados
ollama list

# Descargar un modelo desde la biblioteca de Ollama
ollama pull llama3.2:3b       # Versión 7-bit (~2.5 GB)
ollama pull llama3.2:3b-fp16  # Precisión completa (~6.5 GB)

# Descargar cuantización específica
ollama pull qwen2.5:7b-q4   # Cuantización 4-bit
ollama pull qwen2.5:7b-q8   # Cuantización 8-bit

# Ver uso del disco
du -sh ~/.ollama/models

# Eliminar un modelo
ollama rm llama3.2:3b

# Descargar desde registro personalizado (avanzado)
ollama pull localhost:5000/custom-model

¿Cómo se ejecutan y sirven los modelos?

Hay dos formas de usar Ollama:

bash
# 1. Chat interactivo (CLI)
ollama run llama3.2:3b
# Escribe tus prompts y presiona Enter

# 2. Iniciar el servidor API (se ejecuta en segundo plano)
ollama serve
# La API escucha en http://localhost:11434/v1

# 3. Usar el modelo vía API desde otra terminal
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hola"}]
  }'

¿Cómo se crean modelos personalizados con Modelfiles?

Un Modelfile es un archivo de configuración (como un Dockerfile) que define un modelo personalizado partiendo de un modelo base y añadiendo system prompts, parámetros y pesos.

bash
# Crear un archivo llamado Modelfile
FROM llama3.2:3b

# Añadir un system prompt
SYSTEM """
Eres un experto útil en aprendizaje automático.
Siempre explica conceptos complejos en términos simples.
"""

# Ajustar parámetros
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# Construir el modelo personalizado
ollama create ml-expert -f Modelfile

# Usarlo
ollama run ml-expert

¿Qué opciones de cuantización soporta Ollama?

La cuantización reduce el tamaño del modelo y la VRAM usando números de menor precisión. Ollama soporta el formato GGUF con múltiples cuantizaciones:

CuantizaciónTamaño (7B)VRAMCalidadVelocidad
FP16 (precisión completa)14 GB16 GBMejorMás lenta
Q8_0 (8-bit)7 GB8 GBExcelenteRápida
Q6_K (6-bit)5.5 GB6 GBMuy buenaRápida
Q5_K_M (5-bit)5 GB5.5 GBBuenaMuy rápida
Q4_K_M (4-bit)4.7 GB5 GBBuenaMuy rápida
Q3_K_M (3-bit)3.3 GB4 GBAceptableMás rápida

¿Cómo se generan embeddings con Ollama?

Los embeddings son representaciones numéricas de texto, útiles para RAG (Generación Aumentada por Recuperación) y búsqueda semántica.

bash
# Descargar un modelo de embeddings
ollama pull nomic-embed-text  # Mejor para inglés, 137M params

# Generar embeddings
curl http://localhost:11434/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nomic-embed-text",
    "input": "The quick brown fox jumps"
  }'

# La respuesta incluye embeddings como vector de 768 dimensiones

¿Qué variables de entorno controlan Ollama?

Variables de entorno clave:

  • `OLLAMA_HOST` -- Dirección de escucha (por defecto: 127.0.0.1:11434). Establece `0.0.0.0:11434` para acceso en red.
  • `OLLAMA_MODELS` -- Dónde almacenar los modelos (por defecto: `~/.ollama/models`).
  • `OLLAMA_DEBUG` -- Establece en `1` para registros detallados.
  • `OLLAMA_GPU` -- GPU a usar (por defecto: detección automática). Establece `cuda` o `rocm`.
  • `OLLAMA_KEEP_ALIVE` -- Cuánto tiempo mantener el modelo en memoria (por defecto: 5 minutos).

Errores comunes con los comandos de Ollama

  • Olvidar las etiquetas del modelo. `ollama pull llama3.2` descarga la versión más grande; `ollama pull llama3.2:3b` descarga la versión 3B.
  • No saber que `ollama serve` se ejecuta automáticamente. En Mac y Windows, Ollama inicia la API automáticamente al abrir la app. En Linux, puede ser necesario iniciarlo manualmente.
  • Descargar la cuantización incorrecta. Siempre especifica la etiqueta exacta del modelo (p. ej., `qwen2.5:7b-q4`) para controlar el uso de VRAM.
  • Esperar que Ollama funcione sin conexión tras la descarga. Ollama en sí funciona sin conexión, pero los modelos deben descargarse con conexión a internet.

Preguntas frecuentes sobre los comandos de Ollama

¿Dónde se almacenan los modelos de Ollama?

Por defecto: `~/.ollama/models` en macOS/Linux o `%USERPROFILE%\.ollama\models` en Windows. Establece `OLLAMA_MODELS` para cambiar la ubicación.

¿Puedo mover modelos entre computadoras?

Sí. Copia los archivos del modelo desde `~/.ollama/models` al directorio `~/.ollama/models` de otra computadora; `ollama list` los reconocerá automáticamente.

¿Cómo veo el uso de memoria de los modelos activos?

Usa `ollama ps` para listar los modelos actualmente cargados. Los modelos se descargan de memoria tras 5 minutos de inactividad por defecto.

¿Puedo ejecutar varios modelos simultáneamente?

Sí, pero comparten VRAM. Ejecutar dos modelos 8B requiere 16 GB de VRAM. Cada modelo adicional aumenta el uso de memoria.

¿Cuál es la diferencia entre GGUF y otros formatos de modelo?

GGUF está cuantizado, es eficiente y funciona en CPU/GPU. Es el estándar para LLMs locales. Otros formatos (safetensors, PyTorch .bin) requieren más VRAM y no están optimizados para inferencia local.

¿Cómo uso los modelos de Ollama en mi propia aplicación?

`ollama serve` inicia una API compatible con OpenAI en `localhost:11434`. Usa cualquier SDK de OpenAI (Python, Node.js, etc.) apuntando a esa URL para enviar solicitudes y recibir respuestas.

Fuentes

  • GitHub de Ollama -- github.com/ollama/ollama
  • Documentación de Ollama -- github.com/ollama/ollama/blob/main/docs
  • Biblioteca de modelos de Ollama -- ollama.ai/library

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Referencia de Comandos Ollama 2026: pull, run, serve