Home/Local LLMs/Corregir errores de LLM local en 2026: 10 problemas frecuentes en Ollama, LM Studio y vLLM

Getting Started

Corregir errores de LLM local en 2026: 10 problemas frecuentes en Ollama, LM Studio y vLLM

Last updated: 16 de abril de 2026·9 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Los errores más comunes en los LLM locales son los cuelgues por falta de memoria, la GPU no detectada, la inferencia en CPU extremadamente lenta, la conexión rechazada por la API y la salida corrupta. A partir de abril de 2026, existen soluciones para los 10 errores — la mayoría requieren solo uno o dos comandos de terminal. Esta guía cubre Ollama (puerto 11434), LM Studio (puerto 1234) y vLLM con comandos exactos para cada error.

Slide Deck: Corregir errores de LLM local en 2026: 10 problemas frecuentes en Ollama, LM Studio y vLLM

La siguiente presentación cubre: los 10 errores más comunes en la configuración de LLM local (sin memoria, GPU no detectada, inferencia lenta, conexión rechazada, salida corrupta), los requisitos de RAM para modelos 3B–14B con cuantización Q4_K_M y Q8_0, un proceso de depuración en 5 pasos y los comandos de Ollama para cada corrección. Descarga el PDF como tarjeta de referencia para la resolución de problemas de LLM local.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

Sin memoria: cambia a una cuantización más pequeña (Q4_K_M → Q3_K_S) o a un modelo más pequeño.
GPU no detectada en NVIDIA: actualiza el driver a 525+ en Linux, 452+ en Windows. Ejecuta `nvidia-smi` para confirmar.
Inferencia extremadamente lenta: estás ejecutando solo en CPU. Activa la descarga en GPU en Ollama con la variable de entorno `OLLAMA_GPU_LAYERS`.
Conexión rechazada: Ollama no está en ejecución. Inícialo con `ollama serve` o reinicia el servicio.
Salida corrupta: plantilla de prompt incorrecta. Usa la variante Instruct del modelo, no la variante base.

Los 10 errores más comunes de LLM local con síntomas y soluciones — referencia rápida para configuraciones de Ollama, LM Studio y vLLM (abril de 2026).

Error 1: "Sin memoria" / Cuelgue por falta de memoria

Los errores de falta de memoria significan que el modelo necesita más RAM de la disponible — no es un fallo de hardware. Este es el error más común para los usuarios nuevos. Consulta Cuantización de LLM explicada para entender cómo la cuantización reduce los requisitos de RAM.

Verifica la RAM disponible: ejecuta `free -h` en macOS/Linux, o abre el Administrador de tareas → Rendimiento → Memoria en Windows.
Cambia a una cuantización más pequeña: reemplaza `Q8_0` o `Q5_K_M` por `Q4_K_M`. Para Ollama: `ollama run llama3.2-instruct-q4_K_M`.
Cierra las aplicaciones en segundo plano antes de cargar el modelo — los navegadores y otras apps consumen RAM que el modelo necesita.
Cambia a un modelo más pequeño: si 8B falla con 8 GB de RAM, prueba `llama3.2:3b` (requiere solo ~2,5 GB).

Requisitos de RAM de LLM local por tamaño de modelo: llama3.2 1B–3B cabe en 8 GB, los modelos 7B–8B necesitan 16 GB, los modelos 70B necesitan 64 GB con cuantización Q4_K_M.

Verificar la RAM disponible en Linux / macOS

bash

# Linux
free -h

# macOS
vm_stat | grep "Pages free"

# Más legible en macOS
top -l 1 | grep "PhysMem"

Error 2: GPU no usada (ejecutando solo en CPU)

La GPU no usada significa que el LLM corre 5–10× más lento de lo esperado — verifica la instalación del driver antes que cualquier otra cosa. Confirma que tu GPU es visible para el sistema:

bash

# NVIDIA — debe mostrar el nombre de la GPU y la versión del driver
nvidia-smi

# AMD en Linux
rocm-smi

# macOS — verificar si Metal está disponible
system_profiler SPDisplaysDataType | grep "Metal"

Solo CPU vs GPU activa: Ollama en CPU da 2–8 tok/s; el modo GPU da 30–120 tok/s. Verifica con ollama ps o nvidia-smi.

¿Cómo activar la GPU en Ollama?

NVIDIA en Linux: instala el driver NVIDIA 525+ y CUDA Toolkit 11.3+. Ollama detecta CUDA automáticamente al reiniciar.
NVIDIA en Windows: asegúrate de que la versión del driver sea 452.39 o superior. Ollama instala el soporte CUDA automáticamente mediante el instalador de Windows.
AMD en Linux: instala ROCm 5.7+. Si la detección falla, establece `HSA_OVERRIDE_GFX_VERSION=11.0.0` para tarjetas de la serie RX 6000.
Apple Silicon: Ollama usa Metal por defecto — no se necesita configuración. Confirma con `ollama ps` después de cargar un modelo; las capas de GPU aparecen en la salida.

Error 3: Inferencia extremadamente lenta (menos de 5 tokens por segundo)

Menos de 5 tokens por segundo significa que el modelo corre solo en CPU o que el modelo es demasiado grande para la VRAM disponible. Un modelo 7B en GPU genera 30–80 tok/s; el mismo modelo en CPU genera 3–10 tok/s.

Confirma si la GPU está activa: ejecuta `ollama ps` mientras un modelo está cargado. La salida muestra cuántas capas están en GPU vs CPU.
Reduce el tamaño del modelo: un modelo 13B en CPU genera 3–6 tok/s. Cambiar a 7B duplica la velocidad; cambiar a 3B la cuadruplica.
Aumenta las capas de GPU en Ollama: establece `OLLAMA_GPU_LAYERS=999` para mover todas las capas a la GPU (Ollama limitará al máximo que cabe en VRAM).
Usa una cuantización más rápida: Q4_K_M es la cuantización más rápida que mantiene una calidad aceptable. Q8_0 tiene mayor calidad pero es ~30% más lenta.

Establecer capas de GPU en Ollama

bash

# Establecer la variable de entorno antes de iniciar Ollama
export OLLAMA_GPU_LAYERS=999
ollama serve

# O en un Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 999

Error 4: "Conexión rechazada" al llamar a la API

Conexión rechazada significa que Ollama no está en ejecución — la API en `localhost:11434` solo responde cuando el servicio está activo. Inícialo antes de hacer llamadas a la API.

bash

# Iniciar Ollama manualmente
ollama serve

# En Linux — reiniciar el servicio systemd
systemctl restart ollama

# Verificar que está en ejecución
curl http://localhost:11434
# Esperado: "Ollama is running"

Error 5: Error "Modelo no encontrado"

"Modelo no encontrado" significa que el nombre del modelo en tu comando no coincide con ningún modelo descargado. Los nombres de modelos en Ollama distinguen mayúsculas de minúsculas e incluyen etiquetas de versión.

bash

# Listar todos los modelos descargados
ollama list

# Descargar un modelo si falta
ollama pull llama3.2

# Verifica el nombre exacto del modelo — las etiquetas importan
# "llama3.2" y "llama3.2:3b" son entradas diferentes

Error 6: Archivo de modelo corrupto

Los archivos de modelo corruptos son causados por descargas interrumpidas — elimina y vuelve a descargar para solucionar. Ollama no siempre detecta automáticamente las descargas parciales.

bash

# Eliminar el modelo corrupto
ollama rm llama3.2

# Volver a descargarlo
ollama pull llama3.2

# Para LM Studio: eliminar archivos de modelo manualmente
# Ubicación predeterminada: ~/.cache/lm-studio/models/

Error 6b: "Error al resolver el modelo" en LM Studio

"Failed to resolve model lmstudio-community/..." significa que LM Studio no puede encontrar el modelo en su registro. Esto ocurre normalmente cuando un modelo se descarga desde `lmstudio-community` en Hugging Face pero la referencia del registro ha cambiado. LM Studio usa una entrada de registro en caché que ya no coincide con los archivos de modelo disponibles.

Abre LM Studio → pestaña My Models → haz clic en el menú de tres puntos del modelo fallido → selecciona "Delete model" (conserva el archivo, elimina el registro)
Busca el mismo modelo en el explorador de modelos y vuelve a descargarlo — LM Studio lo volverá a registrar
Alternativa: cierra LM Studio, navega a `~/.cache/lm-studio/models/`, elimina la carpeta del modelo específico y vuelve a descargarlo

bash

# Limpiar manualmente la caché de modelos de LM Studio (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>

Error 7: Errores de inicialización de CUDA / ROCm

Los errores de CUDA y ROCm indican una incompatibilidad de versión de driver/biblioteca — actualiza tu driver a la versión mínima requerida.

"Versión del driver CUDA insuficiente": actualiza el driver NVIDIA. El mínimo para llama.cpp es CUDA 11.3 / driver 450.80.
"No hay imagen de kernel disponible para ejecución": la arquitectura de tu GPU no está soportada. La serie GTX 900 (Maxwell) y anteriores no están soportadas por las versiones recientes de CUDA.
AMD ROCm "HSA_STATUS_ERROR_INVALID_ISA": establece `HSA_OVERRIDE_GFX_VERSION=10.3.0` (para RX 6000) o `11.0.0` (para RX 7000) antes de iniciar Ollama.
Verifica la versión de CUDA: ejecuta `nvcc --version` o `nvidia-smi | grep CUDA`.

Error 8: Salida corrupta, repetitiva o sin sentido

La salida corrupta casi siempre significa que estás usando un modelo base en lugar de una variante instruct/chat. Los modelos base generan completaciones de texto sin formato, no respuestas a preguntas.

Los modelos base (por ejemplo, `llama3.1:8b`) no están ajustados para conversación y, cuando se les hace una pregunta, generan completaciones sin formato que parecen incoherentes. Usa siempre la variante instruct: `llama3.1:8b-instruct`. Consulta Cómo instalar LM Studio para un método basado en GUI para cambiar variantes de modelo.

En Ollama, la etiqueta predeterminada para la mayoría de los modelos ya apunta a la variante instruct. Si descargaste manualmente desde Hugging Face, confirma que el nombre del archivo incluya "Instruct" o "chat".

Error 9: "Dirección ya en uso" — Conflicto de puerto

"Dirección ya en uso" significa que otro proceso está ocupando el puerto 11434 (Ollama) o 1234 (LM Studio). Encuentra y termina el proceso en conflicto.

bash

# Encontrar qué usa el puerto 11434 (Ollama)
lsof -i :11434

# Terminar por PID
kill -9 <PID>

# O cambiar el puerto de Ollama
export OLLAMA_HOST=0.0.0.0:11435
ollama serve

Error 10: El modelo se detiene a mitad de la respuesta

Detenerse a mitad de la respuesta es causado por alcanzar los límites de longitud de contexto o por tener `num_predict` demasiado bajo. El `num_predict` predeterminado en muchas configuraciones es 128 tokens — suficiente para solo 1–2 oraciones.

Aumenta num_predict: este parámetro establece el máximo de tokens a generar. El valor predeterminado suele ser 128. Auméntalo: en Ollama, agrega `PARAMETER num_predict 2048` al Modelfile.
Verifica la ventana de contexto: si tu conversación es muy larga, el modelo puede haber alcanzado su límite de contexto. Inicia una nueva sesión o usa un modelo con una ventana de contexto más grande (Llama 3.2 3B soporta 128K).
Verifica los tokens de parada: algunos Modelfiles incluyen secuencias de parada que terminan la generación anticipadamente. Revisa el prompt del sistema y la plantilla para patrones de parada inesperados.

Lectura relacionada

Cuantización de LLM explicada — Por qué Q4_K_M es el predeterminado y cómo la cuantización afecta la RAM
Guía de hardware para LLM local 2026 — Requisitos de hardware para ejecutar modelos 7B–70B
Cómo instalar Ollama — Guía de instalación y configuración
Ollama vs LM Studio — Comparación de las dos herramientas de LLM local más populares
Cómo ejecutar LLM locales en un portátil — Optimización térmica y de batería específica para portátiles
Mejores modelos de LLM local para principiantes — Recomendaciones de modelos para 8 GB de RAM
Mejores LLM locales para programar 2026 — Comparativa Qwen3-Coder vs DeepSeek

Dónde encontrar más ayuda

Para problemas específicos de hardware en portátiles (limitación térmica, consumo de batería), consulta Cómo ejecutar LLM locales en un portátil. Para preguntas de configuración de seguridad y privacidad, consulta Lista de verificación de seguridad y privacidad de LLM local. La página de issues de Ollama en GitHub (github.com/ollama/ollama/issues) y el subreddit r/LocalLLaMA son los recursos de comunidad más activos para bugs específicos de modelos.

Errores comunes en la resolución de problemas de LLM local

Confundir errores OOM con fallos de hardware — el error significa que la RAM es demasiado pequeña para el modelo, no que el hardware esté roto. Solución: usa cuantización Q4_K_M o un modelo más pequeño.
No verificar la carga del sistema — la velocidad de inferencia se degrada significativamente cuando otras aplicaciones consumen CPU/GPU. Cierra el navegador, el reproductor de video y los procesos en segundo plano antes de hacer benchmarks.
Ignorar la incompatibilidad de versión del driver — NVIDIA CUDA requiere versiones de driver específicas por versión de CUDA. Verifica la salida de `nvidia-smi`; la versión del driver debe ser ≥450.80 para CUDA 11.x.
Usar el nombre de modelo incorrecto en Ollama — `llama3.2` y `llama3.2:3b` son etiquetas de Ollama diferentes. Ejecuta `ollama list` para ver los nombres exactos de los modelos descargados.
No reiniciar Ollama después de actualizar el driver — Ollama detecta la GPU al arrancar. Después de actualizar los drivers de NVIDIA o ROCm, reinicia Ollama completamente (`ollama serve`) para volver a detectar la GPU.

Proceso de depuración de LLM local en 5 pasos: verificar RAM → verificar GPU → verificar servidor → verificar modelo → verificar calidad de salida. Detente en el primer paso fallido.

Fuentes

NVIDIA. (2024). "CUDA Toolkit Release Notes." https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/ — Requisitos oficiales de versión de driver CUDA por versión.
Ollama. (2026). "Ollama Troubleshooting." https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md — Documentación oficial de Ollama para errores comunes.
AMD. (2024). "ROCm Installation Guide." https://rocm.docs.amd.com/projects/install-on-linux/en/latest/ — Instalación oficial de AMD ROCm y soporte de GPU para Linux.

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs