Key Takeaways
- Sin memoria: cambia a una cuantización más pequeña (Q4_K_M → Q3_K_S) o a un modelo más pequeño.
- GPU no detectada en NVIDIA: actualiza el driver a 525+ en Linux, 452+ en Windows. Ejecuta `nvidia-smi` para confirmar.
- Inferencia extremadamente lenta: estás ejecutando solo en CPU. Activa la descarga en GPU en Ollama con la variable de entorno `OLLAMA_GPU_LAYERS`.
- Conexión rechazada: Ollama no está en ejecución. Inícialo con `ollama serve` o reinicia el servicio.
- Salida corrupta: plantilla de prompt incorrecta. Usa la variante Instruct del modelo, no la variante base.
Error 1: "Sin memoria" / Cuelgue por falta de memoria
Los errores de falta de memoria significan que el modelo necesita más RAM de la disponible — no es un fallo de hardware. Este es el error más común para los usuarios nuevos. Consulta Cuantización de LLM explicada para entender cómo la cuantización reduce los requisitos de RAM.
- Verifica la RAM disponible: ejecuta `free -h` en macOS/Linux, o abre el Administrador de tareas → Rendimiento → Memoria en Windows.
- Cambia a una cuantización más pequeña: reemplaza `Q8_0` o `Q5_K_M` por `Q4_K_M`. Para Ollama: `ollama run llama3.2-instruct-q4_K_M`.
- Cierra las aplicaciones en segundo plano antes de cargar el modelo — los navegadores y otras apps consumen RAM que el modelo necesita.
- Cambia a un modelo más pequeño: si 8B falla con 8 GB de RAM, prueba `llama3.2:3b` (requiere solo ~2,5 GB).
Verificar la RAM disponible en Linux / macOS
# Linux
free -h
# macOS
vm_stat | grep "Pages free"
# Más legible en macOS
top -l 1 | grep "PhysMem"Error 2: GPU no usada (ejecutando solo en CPU)
La GPU no usada significa que el LLM corre 5–10× más lento de lo esperado — verifica la instalación del driver antes que cualquier otra cosa. Confirma que tu GPU es visible para el sistema:
# NVIDIA — debe mostrar el nombre de la GPU y la versión del driver
nvidia-smi
# AMD en Linux
rocm-smi
# macOS — verificar si Metal está disponible
system_profiler SPDisplaysDataType | grep "Metal"¿Cómo activar la GPU en Ollama?
- NVIDIA en Linux: instala el driver NVIDIA 525+ y CUDA Toolkit 11.3+. Ollama detecta CUDA automáticamente al reiniciar.
- NVIDIA en Windows: asegúrate de que la versión del driver sea 452.39 o superior. Ollama instala el soporte CUDA automáticamente mediante el instalador de Windows.
- AMD en Linux: instala ROCm 5.7+. Si la detección falla, establece `HSA_OVERRIDE_GFX_VERSION=11.0.0` para tarjetas de la serie RX 6000.
- Apple Silicon: Ollama usa Metal por defecto — no se necesita configuración. Confirma con `ollama ps` después de cargar un modelo; las capas de GPU aparecen en la salida.
Error 3: Inferencia extremadamente lenta (menos de 5 tokens por segundo)
Menos de 5 tokens por segundo significa que el modelo corre solo en CPU o que el modelo es demasiado grande para la VRAM disponible. Un modelo 7B en GPU genera 30–80 tok/s; el mismo modelo en CPU genera 3–10 tok/s.
- Confirma si la GPU está activa: ejecuta `ollama ps` mientras un modelo está cargado. La salida muestra cuántas capas están en GPU vs CPU.
- Reduce el tamaño del modelo: un modelo 13B en CPU genera 3–6 tok/s. Cambiar a 7B duplica la velocidad; cambiar a 3B la cuadruplica.
- Aumenta las capas de GPU en Ollama: establece `OLLAMA_GPU_LAYERS=999` para mover todas las capas a la GPU (Ollama limitará al máximo que cabe en VRAM).
- Usa una cuantización más rápida: Q4_K_M es la cuantización más rápida que mantiene una calidad aceptable. Q8_0 tiene mayor calidad pero es ~30% más lenta.
Establecer capas de GPU en Ollama
# Establecer la variable de entorno antes de iniciar Ollama
export OLLAMA_GPU_LAYERS=999
ollama serve
# O en un Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 999Error 4: "Conexión rechazada" al llamar a la API
Conexión rechazada significa que Ollama no está en ejecución — la API en `localhost:11434` solo responde cuando el servicio está activo. Inícialo antes de hacer llamadas a la API.
# Iniciar Ollama manualmente
ollama serve
# En Linux — reiniciar el servicio systemd
systemctl restart ollama
# Verificar que está en ejecución
curl http://localhost:11434
# Esperado: "Ollama is running"Error 5: Error "Modelo no encontrado"
"Modelo no encontrado" significa que el nombre del modelo en tu comando no coincide con ningún modelo descargado. Los nombres de modelos en Ollama distinguen mayúsculas de minúsculas e incluyen etiquetas de versión.
# Listar todos los modelos descargados
ollama list
# Descargar un modelo si falta
ollama pull llama3.2
# Verifica el nombre exacto del modelo — las etiquetas importan
# "llama3.2" y "llama3.2:3b" son entradas diferentesError 6: Archivo de modelo corrupto
Los archivos de modelo corruptos son causados por descargas interrumpidas — elimina y vuelve a descargar para solucionar. Ollama no siempre detecta automáticamente las descargas parciales.
# Eliminar el modelo corrupto
ollama rm llama3.2
# Volver a descargarlo
ollama pull llama3.2
# Para LM Studio: eliminar archivos de modelo manualmente
# Ubicación predeterminada: ~/.cache/lm-studio/models/Error 6b: "Error al resolver el modelo" en LM Studio
"Failed to resolve model lmstudio-community/..." significa que LM Studio no puede encontrar el modelo en su registro. Esto ocurre normalmente cuando un modelo se descarga desde `lmstudio-community` en Hugging Face pero la referencia del registro ha cambiado. LM Studio usa una entrada de registro en caché que ya no coincide con los archivos de modelo disponibles.
- Abre LM Studio → pestaña My Models → haz clic en el menú de tres puntos del modelo fallido → selecciona "Delete model" (conserva el archivo, elimina el registro)
- Busca el mismo modelo en el explorador de modelos y vuelve a descargarlo — LM Studio lo volverá a registrar
- Alternativa: cierra LM Studio, navega a `~/.cache/lm-studio/models/`, elimina la carpeta del modelo específico y vuelve a descargarlo
# Limpiar manualmente la caché de modelos de LM Studio (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>Error 7: Errores de inicialización de CUDA / ROCm
Los errores de CUDA y ROCm indican una incompatibilidad de versión de driver/biblioteca — actualiza tu driver a la versión mínima requerida.
- "Versión del driver CUDA insuficiente": actualiza el driver NVIDIA. El mínimo para llama.cpp es CUDA 11.3 / driver 450.80.
- "No hay imagen de kernel disponible para ejecución": la arquitectura de tu GPU no está soportada. La serie GTX 900 (Maxwell) y anteriores no están soportadas por las versiones recientes de CUDA.
- AMD ROCm "HSA_STATUS_ERROR_INVALID_ISA": establece `HSA_OVERRIDE_GFX_VERSION=10.3.0` (para RX 6000) o `11.0.0` (para RX 7000) antes de iniciar Ollama.
- Verifica la versión de CUDA: ejecuta `nvcc --version` o `nvidia-smi | grep CUDA`.
Error 8: Salida corrupta, repetitiva o sin sentido
La salida corrupta casi siempre significa que estás usando un modelo base en lugar de una variante instruct/chat. Los modelos base generan completaciones de texto sin formato, no respuestas a preguntas.
Los modelos base (por ejemplo, `llama3.1:8b`) no están ajustados para conversación y, cuando se les hace una pregunta, generan completaciones sin formato que parecen incoherentes. Usa siempre la variante instruct: `llama3.1:8b-instruct`. Consulta Cómo instalar LM Studio para un método basado en GUI para cambiar variantes de modelo.
En Ollama, la etiqueta predeterminada para la mayoría de los modelos ya apunta a la variante instruct. Si descargaste manualmente desde Hugging Face, confirma que el nombre del archivo incluya "Instruct" o "chat".
Error 9: "Dirección ya en uso" — Conflicto de puerto
"Dirección ya en uso" significa que otro proceso está ocupando el puerto 11434 (Ollama) o 1234 (LM Studio). Encuentra y termina el proceso en conflicto.
# Encontrar qué usa el puerto 11434 (Ollama)
lsof -i :11434
# Terminar por PID
kill -9 <PID>
# O cambiar el puerto de Ollama
export OLLAMA_HOST=0.0.0.0:11435
ollama serveError 10: El modelo se detiene a mitad de la respuesta
Detenerse a mitad de la respuesta es causado por alcanzar los límites de longitud de contexto o por tener `num_predict` demasiado bajo. El `num_predict` predeterminado en muchas configuraciones es 128 tokens — suficiente para solo 1–2 oraciones.
- Aumenta num_predict: este parámetro establece el máximo de tokens a generar. El valor predeterminado suele ser 128. Auméntalo: en Ollama, agrega `PARAMETER num_predict 2048` al Modelfile.
- Verifica la ventana de contexto: si tu conversación es muy larga, el modelo puede haber alcanzado su límite de contexto. Inicia una nueva sesión o usa un modelo con una ventana de contexto más grande (Llama 3.2 3B soporta 128K).
- Verifica los tokens de parada: algunos Modelfiles incluyen secuencias de parada que terminan la generación anticipadamente. Revisa el prompt del sistema y la plantilla para patrones de parada inesperados.
Lectura relacionada
- Cuantización de LLM explicada — Por qué Q4_K_M es el predeterminado y cómo la cuantización afecta la RAM
- Guía de hardware para LLM local 2026 — Requisitos de hardware para ejecutar modelos 7B–70B
- Cómo instalar Ollama — Guía de instalación y configuración
- Ollama vs LM Studio — Comparación de las dos herramientas de LLM local más populares
- Cómo ejecutar LLM locales en un portátil — Optimización térmica y de batería específica para portátiles
- Mejores modelos de LLM local para principiantes — Recomendaciones de modelos para 8 GB de RAM
- Mejores LLM locales para programar 2026 — Comparativa Qwen2.5-Coder vs DeepSeek
Dónde encontrar más ayuda
Para problemas específicos de hardware en portátiles (limitación térmica, consumo de batería), consulta Cómo ejecutar LLM locales en un portátil. Para preguntas de configuración de seguridad y privacidad, consulta Lista de verificación de seguridad y privacidad de LLM local. La página de issues de Ollama en GitHub (github.com/ollama/ollama/issues) y el subreddit r/LocalLLaMA son los recursos de comunidad más activos para bugs específicos de modelos.
Errores comunes en la resolución de problemas de LLM local
- Confundir errores OOM con fallos de hardware — el error significa que la RAM es demasiado pequeña para el modelo, no que el hardware esté roto. Solución: usa cuantización Q4_K_M o un modelo más pequeño.
- No verificar la carga del sistema — la velocidad de inferencia se degrada significativamente cuando otras aplicaciones consumen CPU/GPU. Cierra el navegador, el reproductor de video y los procesos en segundo plano antes de hacer benchmarks.
- Ignorar la incompatibilidad de versión del driver — NVIDIA CUDA requiere versiones de driver específicas por versión de CUDA. Verifica la salida de `nvidia-smi`; la versión del driver debe ser ≥450.80 para CUDA 11.x.
- Usar el nombre de modelo incorrecto en Ollama — `llama3.2` y `llama3.2:3b` son etiquetas de Ollama diferentes. Ejecuta `ollama list` para ver los nombres exactos de los modelos descargados.
- No reiniciar Ollama después de actualizar el driver — Ollama detecta la GPU al arrancar. Después de actualizar los drivers de NVIDIA o ROCm, reinicia Ollama completamente (`ollama serve`) para volver a detectar la GPU.
Fuentes
- NVIDIA. (2024). "CUDA Toolkit Release Notes." https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/ — Requisitos oficiales de versión de driver CUDA por versión.
- Ollama. (2026). "Ollama Troubleshooting." https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md — Documentación oficial de Ollama para errores comunes.
- AMD. (2024). "ROCm Installation Guide." https://rocm.docs.amd.com/projects/install-on-linux/en/latest/ — Instalación oficial de AMD ROCm y soporte de GPU para Linux.