Key Takeaways
- Solo CPU (sin GPU): Phi-4 Mini 3.8B a 5–15 tok/s. Mejor opción en CPU para chat y resúmenes.
- 4 GB VRAM: TinyLlama 1.1B Q5 a 20–40 tok/s. Respuestas rápidas, tareas simples.
- 6 GB VRAM: Phi-4 Mini Q5 a 15–30 tok/s. Código ligero y chat.
- 8 GB VRAM (punto óptimo): Mistral 7B Q4 a 25–60 tok/s. Experiencia completa y fluida de asistente.
- 16 GB+: Modelos 13B Q4 a 20–50 tok/s. Alta calidad para tareas exigentes.
- Ranking de velocidad (de mayor a menor): GPU 4 GB > GPU 8 GB > 16 GB+ > GPU 6 GB > CPU.
- Ranking de calidad: 13B > Mistral 7B = Llama 3.1 8B > Phi-4 Mini > TinyLlama 1B.
- Costo: Todos gratuitos (código abierto) frente a la API de ChatGPT (~$0.002 por 1K tokens).
¿Cuál es el modelo más rápido para tu hardware?
Asocia tu hardware con el modelo correcto — la elección equivocada deja 10–30× de velocidad sin aprovechar.
| Tu hardware | Modelo recomendado | Velocidad esperada |
|---|---|---|
| Solo CPU (sin GPU) | Phi-4 Mini Q4 | 5–15 tok/s |
| 4 GB VRAM (calidad) | TinyLlama 1B Q5 | 20–40 tok/s |
| 4 GB VRAM (velocidad) | Gemma 3 2B Q5 | 30–50 tok/s |
| 6 GB VRAM | Phi-4 Mini Q5 | 15–30 tok/s |
| 8 GB VRAM | Mistral 7B Q4 | 25–60 tok/s |
| 16 GB+ | Modelos 13B Q4 | 20–50 tok/s |
¿Qué modelo deberías usar?
Asocia tu situación con el modelo correcto — esta es la decisión más importante:
- Laptop con 8 GB RAM (sin GPU discreta): Mistral 7B Q4 — mejor equilibrio entre velocidad y calidad para inferencia solo en CPU.
- 16 GB RAM: Llama 3.1 8B Q5 — mayor calidad que Q4, cabe con margen.
- PC muy antiguo (4 GB RAM o menos): TinyLlama 1B Q5 o Phi-4 Mini Q4 — únicas opciones viables en este nivel.
- Quieres máxima velocidad: Modelos 3B (Phi-4 Mini, Llama 3.2 3B) — 60–120 tok/s en cualquier GPU moderna.
- Quieres calidad: 7B Q5 (Mistral 7B Q5 o Llama 3.1 8B Q5) — mejor calidad que cabe en menos de 8 GB VRAM.
¿Qué LLM local deberías ejecutar en tu hardware?
**Elige el modelo más grande que tu VRAM pueda alojar en Q4, luego reduce la cuantización antes de cambiar a un modelo más pequeño. La cuantización degrada menos la calidad que bajar de tamaño de modelo.**
| Hardware | Model | Quant | Speed | Experience |
|---|---|---|---|---|
| Solo CPU | Phi-4 Mini | Q4 | 5–15 t/s | lento pero usable |
| GPU 4 GB | TinyLlama 1B | Q5 | 20–40 t/s | tareas simples rápidas |
| GPU 6 GB | Phi-4 Mini | Q5 | 15–30 t/s | aceptable |
| GPU 8 GB | Mistral 7B | Q4 | 25–60 t/s | fluido |
| 16 GB+ | Modelos 13B | Q4 | 20–50 t/s | sólido |
GPU vs CPU para LLMs locales: ¿cuál es más rápido en hardware de gama baja?
Inferencia GPU: 15–20 tok/s en RTX 3060. Requiere configuración CUDA. Rápida, mejor calidad. Consulta la guía de GPUs económicas para opciones rentables.
iGPU (integrada): 5–8 tok/s en Intel Iris. Sin configuración adicional. Más lenta que la GPU discreta.
Inferencia CPU: 1–5 tok/s en multi-núcleo moderno. Funciona en cualquier lugar. La más lenta.
Regla: Si tienes cualquier GPU (incluso integrada), úsala. La CPU es el último recurso.
Por qué los modelos más pequeños son más rápidos en PCs de gama baja
El tamaño del modelo determina directamente la velocidad. Un modelo 1B–3B cabe completamente en la RAM del sistema, lo que permite al CPU o GPU transmitir datos de forma continua. Los modelos más grandes requieren intercambio de memoria — mover datos entre la RAM y el disco — lo que ralentiza la generación entre 10 y 100 veces (el cuello de botella es el I/O del disco, no el cómputo).
La tabla de decisión de hardware anterior refleja este principio: TinyLlama 1.1B (1B parámetros) alcanza 5–10 tok/s en CPUs antiguas, mientras que los modelos 13B+ son impracticables en hardware de gama baja porque el intercambio domina.
- Modelos 1B–3B: Caben en 4–8 GB RAM → generación más rápida → calidad aceptable
- Modelos 7B: Ajustados en sistemas de 8 GB → más lentos por presión de memoria → alta calidad
- Modelos 13B+: Requieren 16+ GB VRAM o intercambio masivo → demasiado lentos para uso interactivo
¿Qué tan rápidos son los LLMs locales en PCs de gama baja?
En sistemas solo CPU, espera:
- Modelos 3B → 15–40 tokens/s (CPUs antiguas: 10–15, CPUs nuevas con optimización: 30–40)
- Modelos 7B → 10–25 tokens/s (depende de los núcleos del CPU y la cuantización; con optimización agresiva algunos llegan a 30+)
- Esto es más lento que las APIs en la nube (ChatGPT 4o: 80–150 tok/s) pero suficiente para uso interactivo. Un modelo 3B a 25 tok/s genera una respuesta de 500 tokens en 20 segundos — aceptable para tareas no urgentes como revisión de código, resúmenes y escritura creativa.
¿Cómo afecta la cuantización a la velocidad en PCs de gama baja?
Q4 (4 bits): ~1% de pérdida de calidad, 50% de ahorro en VRAM. Elección estándar. Para detalles sobre todos los niveles de cuantización y cómo funcionan, consulta la guía completa.
Q3 (3 bits): ~3% de pérdida de calidad, 62% de ahorro en VRAM. Aceptable para chat.
Q2 (2 bits): ~10% de pérdida de calidad, 75% de ahorro en VRAM. Arriesgado; usar solo si hay OOM.
Impacto en velocidad: Q2 es ~30% más rápido que Q4 debido a menor uso de ancho de banda de memoria, no por cómputo.
Estrategia: cuantiza modelos grandes (Mistral 7B Q2) en lugar de usar modelos pequeños (TinyLlama).
Mistral 7B Q2 supera a TinyLlama 1.1B Q4 tanto en velocidad como en calidad.
Los modelos más rápidos sacrifican calidad por velocidad — pero ajustar temperature y top-p recupera buena parte de esa calidad. Una temperature baja (0.1–0.3) en modelos rápidos produce resultados más consistentes que la configuración predeterminada. Consulta temperature y top-p explicados para los ajustes exactos.
¿Cómo acelerar la inferencia solo en CPU?
- Habilitar AVX-512: Si el CPU lo admite, usa `LLAMACPP_AVX512=1 ollama run phi`. ~20% de mejora de velocidad.
- Reducir la ventana de contexto: Contexto más corto = más rápido. Usa `--ctx-size 1024` en lugar de 4096.
- **Usar llama.cpp en lugar de Ollama:** Ligeramente más rápido en CPU (~10% de ganancia) por menor sobrecarga.
- Deshabilitar multithreading: Contraintuitivo, pero en CPUs débiles el modo de un solo hilo es más rápido (sin sobrecarga de hilos).
- Delegar a la iGPU: Incluso una GPU integrada débil supera a la CPU. Verifica disponibilidad con `lspci`.
¿Qué tan rápidos son estos modelos? Benchmarks reales (abril 2026)
Mediciones reales por nivel de hardware, abril de 2026. Todos ejecutando Ollama con configuración predeterminada, sin ajuste:
- Solo CPU (Ryzen 7 7700X) + Phi-4 Mini Q4: 5–15 tok/s.
- 4 GB VRAM (GTX 1650) + TinyLlama 1B Q5: 20–40 tok/s.
- 6 GB VRAM (RTX 2060) + Phi-4 Mini Q5: 15–30 tok/s.
- 8 GB VRAM (RTX 3060) + Mistral 7B Q4: 25–60 tok/s.
- 16 GB+ (RTX 3080 / 4070) + Modelos 13B Q4: 20–50 tok/s. Para documentos largos, prueba Llama 4 Scout 8B (ventana de contexto de 10M, lanzado en marzo de 2026) con `ollama run llama4:8b`.
¿Qué es realmente "rápido" para los LLMs locales?
La velocidad se percibe diferente según la tarea — usa esto como referencia:
Si tu modelo corre por debajo de 15 tok/s, reduce el tamaño del modelo (7B → 3B) o baja un nivel de cuantización (Q5 → Q4) antes de comprar hardware nuevo.
- Por debajo de 10 tok/s → se siente roto. Las palabras aparecen una a una con pausas notorias. No usable para chat interactivo.
- 15–25 tok/s → aceptable. Velocidad legible para la mayoría de usuarios. Bueno para preguntas y respuestas, resúmenes y ayuda con código.
- 30+ tok/s → fluido. Se siente como un asistente real. Cómodo para todas las tareas interactivas.
- 60+ tok/s → instantáneo. Más rápido que la lectura. Ideal para autocompletado en tiempo real e iteración rápida.
Qué evitar en PCs de gama baja
- No ejecutes modelos 13B+ — superan los límites de RAM. Un modelo 13B en Q4 requiere 8–10 GB VRAM, excediendo la capacidad práctica de un PC de gama baja. Incluso con cuantización agresiva Q2, los modelos 13B requieren 5–6 GB, dejando margen insuficiente para el SO y la sobrecarga de planificación de GPU. Usa 7B o menos.
- Evita la cuantización Q8 — más lenta con mínima ganancia de calidad. Q8 usa casi 2× la VRAM de Q4 (8 GB vs 5.5 GB para Mistral 7B) con solo ~2% de mejora de calidad. En sistemas de 4 GB, Q8 es impracticable; en sistemas de 8 GB, Q4 sigue siendo óptimo. Q3 es la única compensación que vale la pena considerar cuando Q4 provoca OOM.
- No esperes rendimiento de autocompletado en tiempo real. A 3 tok/s en CPU, generar 50 tokens lleva 16 segundos. El autocompletado interactivo requiere ≥20 tok/s. Los LLMs locales en CPUs de gama baja sirven para chat por lotes, borradores y revisión — no para autocompletado en vivo ni código mientras escribes.
- No uses inferencia solo en CPU para chatbots de producción. Aceptable para herramientas internas, prototipos y trabajo offline por lotes. Las APIs en la nube (latencia 15–20 ms) superan a las CPUs de gama baja (latencia 300+ ms) para servicios orientados al usuario. Usa la inferencia local para escenarios críticos de privacidad u offline, no para los críticos de velocidad.
Errores comunes
- Error: usar TinyLlama en CPU para mayor velocidad. Problema: TinyLlama pertenece a GPU de 4 GB, no a CPU — Phi-4 Mini 3.8B es más rápido y mucho mejor en hardware solo CPU. Solución: ejecuta Phi-4 Mini 3.8B en CPU; reserva TinyLlama Q5 para 4 GB VRAM.
- Error: no habilitar los flags de aceleración de CPU. Problema: no habilitar AVX/NEON desperdicia un 20% de velocidad sin costo. Solución: establece `LLAMACPP_AVX512=1` o `LLAMACPP_NEON=1` antes de ejecutar Ollama.
- Error: cuantizar a Q2 para forzar 7B en 4 GB. Problema: la cuantización Q2 frecuentemente provoca cuelgues por falta de memoria debido a la sobrecarga del caché KV durante la inferencia. Solución: usa un modelo 3B en Q4.
- Error: asumir que hardware más nuevo siempre significa inferencia más rápida. Problema: el Ryzen de escritorio no es más rápido por token que el ARM móvil porque el software de escritorio carece de optimización de memoria. Solución: haz benchmarks con tu hardware real.
- Error: usar el slug de Ollama incorrecto para tu modelo. Problema: `ollama run phi` carga Phi-2, no Phi-4 Mini. Solución: usa `ollama run phi4-mini` para el modelo Phi más reciente. Consulta siempre ollama.com/library para las etiquetas exactas de los modelos.
LLMs locales en PCs de gama baja: contexto regional
UE / RGPD: Ejecutar LLMs locales en hardware de gama baja es el patrón de despliegue más conforme al RGPD para particulares y pequeñas empresas — ningún dato sale del dispositivo. La Ley de IA de la UE (vigente desde febrero de 2025) no impone requisitos de documentación para la inferencia de uso personal. Para las pymes alemanas que usan LLMs locales para tareas internas de negocio, BSI-Grundschutz recomienda la inferencia local para el procesamiento de documentos sensibles.
América Latina: La inferencia local en hardware de consumo cumple con las principales leyes de protección de datos de la región: la LFPDPPP de México, la Ley 25.326 de Argentina y la Ley 1581 de Colombia. Dado que ningún dato sale del dispositivo, la inferencia local elimina la necesidad de cláusulas contractuales estándar con proveedores de IA externos y satisface los requisitos de residencia de datos donde aplica. Para empresas latinoamericanas que procesan datos de clientes o documentos internos sensibles, la inferencia local en hardware accesible es la opción más simple de cumplimiento normativo.
China: La inferencia local en hardware de consumidor es común para despliegues de Qwen2.5 y DeepSeek-R1 en China, donde el acceso a las APIs en la nube de modelos no chinos está restringido. Qwen2.5 1.5B y 3B funcionan en hardware solo CPU, proporcionando una alternativa funcional a las APIs en la nube para usuarios con hardware limitado.
Preguntas frecuentes sobre cómo ejecutar LLMs locales en PCs de gama baja
¿Qué se considera un PC de gama baja para ejecutar LLMs locales?
Un PC de gama baja para LLMs locales es cualquier máquina con menos de 8 GB de VRAM dedicada, o un sistema solo CPU. Incluye la mayoría de laptops con gráficos integrados Intel Iris o AMD Radeon, PCs de escritorio con GPUs GTX 1060 o más antiguas, y Chromebooks. La restricción clave no es la velocidad del CPU sino la memoria disponible para alojar los pesos del modelo.
¿Puedo ejecutar Mistral 7B en una GPU de 4 GB?
Con cuantización Q2, sí. Con Q4, no (cuelgue por OOM). Q2 tiene una pérdida de calidad aceptable (~5–10% menor en la puntuación MMLU), pero la velocidad aumenta un 30%. Es una compensación práctica para usuarios con VRAM limitada.
¿Es la inferencia CPU usable para chatbots?
Sí, para escenarios asíncronos de bajo rendimiento. A 3 tok/s, una respuesta de 100 tokens tarda ~3 minutos. Esto no es usable para conversación interactiva pero es aceptable para procesamiento por lotes nocturno o tareas no en tiempo real como redacción de correos.
¿Debo usar Phi-4 Mini o TinyLlama 1.1B en CPU?
Phi-4 Mini 3.8B es la mejor opción para sistemas solo CPU — alcanza 5–15 tok/s y produce una calidad de salida significativamente mejor que TinyLlama. TinyLlama 1.1B Q5 está optimizado para 4 GB VRAM (20–40 tok/s), no para inferencia solo en CPU.
¿Cómo verifico si mi GPU admite CUDA?
Ejecuta `nvidia-smi` en la terminal. Si muestra información de GPU, tienes soporte CUDA. Si devuelve "command not found" o "no NVIDIA GPU", consulta la documentación de Intel/AMD para los controladores de GPU integrada.
¿Cómo afecta la cuantización a la velocidad de inferencia?
La cuantización reduce principalmente los requisitos de ancho de banda de memoria, no el cómputo. Q2 (2 bits) es aproximadamente un 30% más rápido que Q4 (4 bits) porque el modelo carga menos bytes por pase adelante. Sin embargo, Q2 conlleva una penalización de calidad de ~10%. La regla práctica: usa Q4 por defecto, baja a Q2 solo si no puedes ajustar el modelo en la VRAM disponible en Q4.
¿Puedo usar cuantización por debajo de Q2?
Técnicamente sí (Q1), pero la calidad se degrada catastróficamente — hasta un 30% de pérdida de precisión. No se recomienda para ningún caso de uso práctico.
¿Se admite la inferencia híbrida CPU + GPU?
Sí, mediante offloading de capas. Con llama.cpp puedes usar `--n-gpu-layers 10` para delegar las primeras 10 capas a la GPU manteniendo el resto en CPU. Este enfoque híbrido te da una velocidad cercana a la GPU con VRAM limitada.
¿Cuál es el LLM local más rápido?
Los modelos más rápidos son los de 1B–3B parámetros como Llama 3.2 3B, que pueden alcanzar 15–40 tokens/s en CPUs modernas optimizadas y hasta 40–60 tok/s con aceleración GPU. La velocidad depende más del hardware que del modelo — un 7B en GPU (25–40 tok/s) supera a un 3B en CPU (10–25 tok/s).
¿Puedo ejecutar un LLM local con 4 GB de RAM?
Sí — los modelos 1B funcionan cómodamente en sistemas de 4 GB (1–1.3 GB por modelo + 2–3 GB para el SO y margen). Los modelos más grandes requieren más: 3B necesita 2–3 GB, 7B necesita 5.5–8 GB en Q4. Para sistemas de 4 GB, Llama 3.2 1B o TinyLlama 1.1B son opciones prácticas, pero la calidad es limitada.
¿Se necesita GPU para mayor velocidad?
No, pero las GPUs aumentan significativamente la velocidad. Los sistemas solo CPU pueden alcanzar 10–25 tok/s para modelos 3B con optimización; las GPUs alcanzan 25–60 tok/s. Para usuarios solo CPU, los modelos más pequeños (1B–3B) son esenciales. La GPU solo es necesaria si necesitas velocidades interactivas en modelos 7B+.
Fuentes
- Ficha del modelo Phi-4 Mini — Microsoft Research. 68% MMLU, 70% HumanEval. Lanzado en 2025.
- Ficha del modelo Gemma 3 — Google DeepMind. Gemma 3 2B con ventana de contexto de 128K. Lanzado en 2025.
- Llama 4 Scout 8B — Meta. Ventana de contexto de 10M, lanzado en marzo de 2026.
- Repositorio TinyLlama 1.1B — Stability AI. Entrenamiento completado en 2024. Modelo estable, sin actualizaciones. Recomendado para el nivel 4 GB VRAM.
- Guía de optimización de CPU para llama.cpp — Flags de aceleración de CPU incluyendo AVX-512, NEON y configuración de hilos.