Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Ejecuta tu primer LLM local en 10 minutos: De la instalación a la primera respuesta
Getting Started

Ejecuta tu primer LLM local en 10 minutos: De la instalación a la primera respuesta

·7 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Ejecutar tu primer LLM local tarda menos de 10 minutos con Ollama. Instala Ollama, ejecuta un comando para descargar un modelo y empieza a chatear en tu terminal — sin API key, sin cuenta y sin conexión a internet después de la descarga inicial.

Ejecutar tu primer LLM local con Ollama tarda menos de 10 minutos. Instala Ollama, ejecuta un comando para descargar un modelo y empieza a chatear en tu terminal — sin API key, sin cuenta y sin conexión a internet después de la descarga inicial. A partir de abril de 2026, el modelo más rápido para principiantes es Llama 3.2 3B con 25-45 tokens/seg en una CPU moderna de laptop.

4-Step Local LLM PipelineA horizontal flow diagram showing the four steps to run a local LLM: Install Ollama, Pull a Model, Run the Model, and Start Chatting.1. Installollama.com2. Pullllama3.2:3b3. Runollama run4. ChatLocal AI2 min2-5 min<1 secInstant

Position: intro

Key Takeaways

  • El camino más rápido: instala Ollama → ejecuta `ollama run llama3.2` → chatea en tu terminal. Tiempo total: menos de 5 minutos con una conexión rápida.
  • Para máquinas con 8 GB de RAM: empieza con `llama3.2:3b` (descarga de 2 GB) o `phi4-mini` (2,3 GB). Ambos funcionan en cualquier laptop moderno.
  • Espera 15-40 tokens/seg en CPU y 60-120 tokens/seg en una GPU de gama media o Apple Silicon.
  • Las primeras respuestas pueden sentirse más lentas que las APIs en la nube — los modelos locales cambian velocidad por privacidad y costo cero.
  • Después de la descarga inicial del modelo, todo funciona sin conexión. No se necesita internet para sesiones posteriores.

Paso 1: Instalar Ollama

Ollama es la forma más rápida de ejecutar un LLM local. Instálalo con un comando o una descarga de 2 minutos:

bash
# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com/download

Verificar que Ollama está en ejecución

Después de la instalación, confirma que Ollama está activo:

bash
curl http://localhost:11434
# Expected output: Ollama is running

Paso 2: Elegir tu primer modelo

Elige un modelo según la RAM disponible. Si tienes dudas, empieza con `llama3.2:3b` — funciona en cualquier máquina con 4 GB de RAM y produce resultados útiles:

Tu RAMModelo recomendadoTamaño de descargaPor qué
4 GBllama3.2:1b~1,3 GBEl modelo Llama más pequeño que resulta útil
8 GBLlama 3.2 3B~2 GBMejor relación calidad/tamaño para principiantes
8-16 GBLlama 3.1 8B~4,7 GBModelo de propósito general de alto rendimiento
16+ GBmistral:7b o qwen2.5:7b~4-5 GBCalidad competitiva, inferencia rápida

Paso 3: Descargar el modelo

Descarga el modelo con `ollama pull`. El modelo se guarda en `~/.ollama/models` y solo necesita descargarse una vez:

bash
ollama pull llama3.2

# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b

¿Cómo se ve la descarga?

Ollama muestra el progreso de la descarga en el terminal. Un modelo `llama3.2:3b` tarda 2-5 minutos en una conexión de banda ancha típica. El modelo se almacena comprimido — los 2 GB descargados se expanden a aproximadamente 2,3 GB en disco.

text
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏   42 B
verifying sha256 digest
writing manifest
success

Paso 4: Ejecutar el modelo y enviar tu primer prompt

Inicia una sesión de chat interactiva:

bash
ollama run llama3.2

# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)

Tu primera conversación

Escribe un mensaje y presiona Enter. El modelo transmite su respuesta token por token:

text
>>> What are local LLMs?

Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...

Qué esperar: velocidad, calidad y limitaciones

Velocidad variable según el hardware. En un laptop de 2023 (sin GPU): espera 15-25 tokens/seg para un modelo 3B y 8-15 tokens/seg para un 8B. En Apple M3 Pro: 50-80 tokens/seg para 8B. En NVIDIA RTX 4070 Ti: 90-130 tokens/seg para 8B.

Calidad de `llama3.2:3b` notablemente inferior a GPT-4o o Claude Opus 4.7 en tareas complejas. Para resúmenes, preguntas y respuestas simples y explicación de código, el resultado es útil. Para razonamiento en múltiples pasos o escritura de formato largo, actualiza a un modelo 8B o 13B.

Ventana de contexto: `llama3.2:3b` soporta 128K tokens por defecto en Ollama. En la práctica, la calidad se degrada después de ~16K tokens en una sola conversación.

Demora en la primera respuesta: la primera respuesta después de `ollama run` incluye el tiempo de carga del modelo (5-30 segundos). Las respuestas posteriores en la misma sesión son más rápidas.

¿Cómo usar tu LLM local más allá del terminal?

El chat en terminal de Ollama es útil para pruebas, pero la mayoría de los casos de uso reales necesitan una interfaz mejor:

  • Open WebUI: una interfaz web completa para Ollama. Ejecútala con Docker: `docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`. Accede en http://localhost:3000.
  • LM Studio: si prefieres una GUI de escritorio, Cómo instalar LM Studio cubre la configuración completa. El chat integrado de LM Studio es pulido y soporta historial de conversaciones.
  • Integración API: la API de Ollama en `localhost:11434` es compatible con el SDK de OpenAI. Cualquier aplicación que acepte una URL base de OpenAI puede conectarse a tu modelo local.
  • VS Code / Cursor: extensiones como Continue.dev se conectan a Ollama y proporcionan asistencia de codificación con IA local directamente en tu editor.

Ejecutar tu primer LLM local: contexto regional

UE / RGPD: ejecutar un LLM local con Ollama significa que ningún dato de prompt, contexto ni salida sale de tu máquina — los mecanismos de transferencia del Artículo 46 del RGPD no se aplican. Para profesionales de la UE que manejan datos personales, esta es la alternativa que preserva la privacidad frente a las APIs de IA en la nube. Tu primer modelo local (llama3.2:3b) usa 2 GB de disco, genera cero llamadas API externas y cumple por diseño las directrices de minimización de datos del BSI alemán.

Japón (METI): las directrices de gobernanza de IA del METI exigen documentar dónde se produce la inferencia de IA. Tu primera configuración de Ollama crea un entorno local completo y auditable: archivos de modelo almacenados en ~/.ollama/models con nombres de archivo específicos de versión, sin dependencias de API externas, e inferencia verificable vía `ollama ps`. Los profesionales japoneses que ejecuten Llama o Qwen2.5 localmente pueden documentar la versión exacta del modelo y el hardware para los fines de cumplimiento del METI.

China: para flujos de trabajo en chino, reemplaza llama3.2:3b por qwen2.5:3b como primer modelo: `ollama pull qwen2.5:3b`. Qwen2.5 procesa texto en chino un 30-40% más eficientemente en tokens que Llama, produciendo mejores resultados en el mismo nivel de hardware. Los comandos ollama pull y run son idénticos.

Preguntas frecuentes al ejecutar tu primer LLM local

La respuesta del modelo es muy lenta — ¿es esto normal?

En hardware solo con CPU, 8-20 tokens/seg es normal para un modelo 7B. Cada token equivale aproximadamente a 0,75 palabras. A 10 tokens/seg, una respuesta de 100 palabras tarda unos 13 segundos. Para acelerar la inferencia, usa un modelo más pequeño (3B en lugar de 8B), activa la descarga a GPU si tienes una compatible, o usa el nivel de cuantización Q4_K_M que es la configuración más rápida habitual.

¿Puedo ejecutar dos modelos al mismo tiempo?

Ollama puede mantener varios modelos cargados simultáneamente si tienes suficiente RAM. Por defecto, Ollama descarga un modelo después de 5 minutos de inactividad. Puedes cambiar esto con la variable de entorno OLLAMA_KEEP_ALIVE. Ejecutar dos modelos 7B simultáneamente requiere ~16 GB de RAM.

¿Cómo detengo Ollama para que no se ejecute en segundo plano?

En macOS: haz clic en el ícono de llama en la barra de menú y selecciona Salir. En Linux: ejecuta `systemctl stop ollama`. En Windows: haz clic derecho en el ícono de la bandeja del sistema y selecciona Salir. Para evitar que Ollama arranque al iniciar sesión, elimínalo de tus elementos de inicio.

¿Cuál es la forma más fácil de ejecutar un LLM local por primera vez?

Instala Ollama (ollama.com), ejecuta `ollama pull llama3.2:3b` y luego `ollama run llama3.2:3b`. Eso es todo. Tres comandos, 2-5 minutos y tienes un modelo de IA funcionando en tu máquina sin necesidad de internet después de la descarga inicial.

¿Cómo sé si mi LLM local está funcionando correctamente?

Ejecuta `ollama ps` en el terminal. Si el modelo está en ejecución, aparecerá en la lista con su nombre, tamaño y uso de memoria. Envíale un prompt simple como "¿Cuánto es 2+2?" — si responde "4", el modelo está funcionando correctamente.

¿Mi computadora necesita una GPU para ejecutar un LLM local?

No. Los LLM locales se ejecutan en CPU. Una GPU hace la inferencia 5-10 veces más rápida, pero solo con CPU está bien para aprender y para muchos casos de uso reales. Los laptops modernos con Apple M1/M2, AMD Ryzen o Intel de 12.ª generación pueden ejecutar modelos 3B-7B a velocidades razonables (10-30 tokens/seg).

¿Cuánto espacio en disco ocupa un LLM local?

`llama3.2:1b` ocupa 1,3 GB, `llama3.2:3b` ocupa 2 GB, `llama3.1:8b` ocupa 4,7 GB. Estos son los tamaños comprimidos tal como los almacena Ollama. Después de cargarlos en RAM para la inferencia, los tamaños difieren (consulta Cuánta VRAM para LLM local para más detalles).

¿Puedo usar mi LLM local sin conexión a internet?

Sí, completamente. Descarga el modelo una vez con Ollama (requiere internet) y luego ejecútalo localmente para siempre sin internet. Perfecto para redes privadas, aviones o entornos completamente sin conexión.

¿En qué se diferencia un LLM local de ChatGPT?

ChatGPT se ejecuta en los servidores de Anthropic. Los LLM locales se ejecutan en tu máquina. Local = cero datos salen de tu dispositivo, privacidad total, sin costos de API. ChatGPT = mejor calidad en tareas complejas, requiere internet y una suscripción de pago. Ambos tienen ventajas y desventajas.

¿Cuál es el mejor primer modelo para probar con Ollama?

`ollama pull llama3.2:3b` — pesa 2 GB, funciona en cualquier laptop moderno, produce respuestas competentes y es el punto de partida recomendado por Ollama. Después de probarlo, consulta Mejores modelos LLM locales para principiantes para alternativas según tu hardware.

Próximos pasos después de tu primera ejecución

Ahora que tienes un LLM local funcionando, explora lo que puede hacer. Para entender qué modelos rinden mejor con tu hardware, consulta Mejores modelos LLM locales para principiantes. Para consejos de rendimiento específicos para laptops, consulta Cómo ejecutar LLM locales en un laptop. Para mejores prácticas de privacidad y seguridad, consulta la Lista de verificación de seguridad y privacidad de LLM local.

Fuentes

Errores comunes después de tu primera ejecución

  • Confundir el conteo de tokens con la velocidad — un modelo 7B que genera 100 tokens a 20 tokens/seg tarda 5 segundos, no es instantáneo.
  • Ejecutar la inferencia mientras el sistema está ocupado con otras tareas, reduciendo significativamente los tokens/seg efectivos.
  • No verificar los límites de la ventana de contexto — la mayoría de los modelos para principiantes soportan 2K-8K tokens, no los 100K+ de los modelos de frontera.
  • Esperar respuestas instantáneas en la primera ejecución — la primera respuesta incluye el tiempo de carga del modelo (5-30 segundos). Las respuestas posteriores en la misma sesión son 2-5 veces más rápidas.
  • Usar la etiqueta de modelo incorrecta — `llama3.1:8b-text` es el modo de completado de texto base y producirá bucles/repeticiones sin fin. Usa etiquetas `-instruct` como `llama3.1:8b-instruct` para chat.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Ejecuta tu primer LLM local en 10 minutos (paso a paso)