Key Takeaways
- La inferencia solo con CPU funciona bien para modelos de 3–13B en procesadores modernos con 8–32 GB de RAM.
- Mejores modelos CPU: Phi-4 Mini (3,8B, 2,3 GB, 12 tokens/seg), Gemma 3 2B (1,5 GB, 15 tokens/seg), Llama 3.2 3B (2 GB, 10 tokens/seg).
- La inferencia CPU es 10–30× más lenta que la GPU pero usa cero VRAM dedicada.
- Activa el modo solo CPU en Ollama o llama.cpp con una simple opción de línea de comandos.
- La inferencia CPU es ideal para APIs de producción (sin sobrecarga de GPU), dispositivos edge y entornos con presupuesto limitado.
¿Pueden las CPU ejecutar LLM?
Sí, las CPU modernas (Intel i7 10.ª gen+, AMD Ryzen 5000+, Apple M-series) pueden ejecutar modelos de 3–13B a 8–15 tokens por segundo. Esto es 10–30× más lento que una GPU pero no requiere VRAM dedicada. Una CPU con suficiente RAM del sistema (8–32 GB) puede ejecutar modelos que requerirían una GPU de $300 o más.
La inferencia en CPU intercambia velocidad por accesibilidad: cero sobrecarga de GPU, estabilidad perfecta y sin problemas de controladores. Para casos de uso ocasionales (chatbots que responden pocas solicitudes por segundo, procesamiento de documentos sin conexión), el modo solo CPU es práctico.
Las CPU modernas tienen instrucciones vectoriales AVX-512 o NEON/SVE que aceleran las operaciones matriciales. Herramientas como llama.cpp y Ollama las utilizan automáticamente, haciendo que la inferencia en CPU sea mucho más rápida que las implementaciones ingenuas.
Mejores modelos solo CPU 2026
La siguiente tabla clasifica los modelos por rendimiento en Intel i7-12700 (12 núcleos, AVX-512) con modo solo CPU:
| Modelo | Parámetros | Tamaño GGUF | RAM necesaria | Velocidad CPU | Mejor para |
|---|---|---|---|---|---|
| Phi-4 Mini | 3,8B | ~2,3 GB | 4 GB | 12 tok/seg | Chat general, asistencia de código |
| Gemma 3 2B | 2B | ~1,5 GB | 3 GB | 15 tok/seg | Respuestas rápidas, bajo VRAM |
| Llama 3.2 3B | 3B | ~2 GB | 3,5 GB | 10 tok/seg | Equilibrio calidad/velocidad |
| Mistral 7B Q4 | 7B | ~4,5 GB | 6 GB | 5 tok/seg | Mejor calidad, 16+ GB RAM |
| Llama 3.1 8B Q4 | 8B | ~5 GB | 7 GB | 4 tok/seg | Programación, tareas lógicas |
Comparativa de velocidad: CPU vs GPU
La velocidad varía según el hardware. Estos benchmarks se realizaron en hardware estándar de 2026 ejecutando Ollama o llama.cpp:
| Hardware | Modelo | Velocidad | Notas |
|---|---|---|---|
| Intel i7-12700 (CPU) | Phi-4 Mini 3,8B | 12 tokens/seg | AVX-512 activado |
| AMD Ryzen 7 5700X (CPU) | Phi-4 Mini 3,8B | 9 tokens/seg | Solo AVX2 más antiguo |
| Apple M3 (CPU) | Phi-4 Mini 3,8B | 14 tokens/seg | Ventaja de memoria unificada |
| RTX 3060 (GPU, 12 GB) | Phi-4 Mini 3,8B | 80 tokens/seg | GPU es 6,7× más rápida |
| RTX 4090 (GPU, 24 GB) | Llama 3.1 8B Q4 | 120 tokens/seg | GPU es 30× más rápida que CPU |
Requisitos de RAM por modelo
Regla general: tamaño GGUF + 500 MB de sobrecarga = RAM mínima necesaria. Un modelo GGUF de 2 GB necesita 2,5–3 GB de RAM del sistema libre:
| Modelo | Tamaño GGUF | RAM mínima | Cómodo | Longitud de contexto |
|---|---|---|---|---|
| Gemma 3 2B | ~1,5 GB | 2–2,5 GB | 4 GB | 8K |
| Phi-4 Mini 3,8B | ~2,3 GB | 3 GB | 6 GB | 4K |
| Llama 3.2 3B | ~2 GB | 2,5–3 GB | 6 GB | 8K |
| Mistral 7B Q4 | ~4,5 GB | 5 GB | 8 GB | 32K |
| Llama 3.1 8B Q4 | ~5 GB | 6 GB | 12 GB | 128K |
Cómo ejecutar el modo solo CPU
Ollama (lo más sencillo): Simplemente ejecuta `ollama run phi:mini`. Ollama detecta automáticamente los sistemas sin GPU NVIDIA/AMD y usa la RAM del sistema. LM Studio: Abre Configuración → selecciona "Ninguna" en GPU para forzar el modo CPU. Llama.cpp: Usa el flag `--n-gpu-layers 0` para desactivar el offloading a GPU.
ollama run phi:mini
# Ollama auto-detects CPU-only systemsConsejos de optimización para inferencia CPU
Para extraer el máximo rendimiento de la inferencia en CPU:
- Usa cuantización Q4_K_M — reduce el tamaño GGUF en ~70%, pérdida de calidad mínima y un aumento de velocidad del 10–20% gracias a mejor comportamiento de caché.
- Reduce la ventana de contexto — contextos más largos = inferencia más lenta. Usa `--context 2048` para limitar el contexto a 2K tokens.
- Activa el multi-hilo — Ollama y llama.cpp detectan automáticamente el número de núcleos de CPU. Verifica con `nproc` que coincida.
- Usa AVX-512 o ARM NEON — las CPU modernas de Intel/AMD/ARM tienen instrucciones vectoriales. Comprueba los flags de CPU: `cat /proc/cpuinfo | grep avx512` (Linux) o Apple Acerca de → Informe del sistema (Mac).
- Tamaño de lote = 1 — la CPU gestiona mejor la inferencia de secuencia única. No intentes múltiples lotes en CPU.
- Fija los hilos a núcleos — en Linux, usa `numactl --cpunodebind=0 ollama run phi:mini` para evitar la sobrecarga por cambio de núcleo.
Cuándo usar CPU vs GPU
| Caso de uso | CPU | GPU |
|---|---|---|
| Chat en tiempo real (latencia < 1 seg) | ❌ Demasiado lenta (12 tok/seg = 5 seg para 60 tokens) | ✅ 80+ tok/seg |
| Procesamiento por lotes (documentos, logs) | ✅ Bien (la velocidad no importa) | ⚠️ Excesivo |
| API de producción (presupuesto limitado) | ✅ $0 coste de hardware | ⚠️ $200+ GPU + electricidad |
| Dispositivo edge (Raspberry Pi) | ✅ Sin alternativa | ❌ Opciones de GPU limitadas |
| Desarrollo / pruebas locales | ✅ Menor consumo, más silencioso | ⚠️ Excesivo |
| Fine-tuning de LLM | ❌ Demasiado lenta (horas → días) | ✅ 10–30× de aceleración |
FAQ
¿Qué tan rápida es la inferencia solo CPU comparada con una GPU?
CPU: 8–15 tokens/seg en procesadores modernos. GPU (RTX 3060): 80 tokens/seg. GPU (RTX 4090): 120+ tokens/seg. La CPU es 10–30× más lenta pero requiere una inversión de $0 en GPU.
¿Cuál es el modelo más pequeño que produce salidas coherentes en CPU?
Gemma 3 2B (1,5 GB) produce respuestas razonables. Por debajo de 2B, la calidad cae. Para mejor calidad con 8 GB de RAM, usa Phi-4 Mini (3,8B) o Llama 3.2 3B (2 GB).
¿Puedo ejecutar un modelo de 13B en CPU?
Sí, con cuantización Q4_K_M un modelo de 13B ocupa ~6,5 GB. Necesita 8–12 GB de RAM del sistema. Velocidad: ~2–3 tokens/seg. Incómodo para uso interactivo pero funciona para procesamiento por lotes.
¿La inferencia CPU usa la GPU en algún momento?
No. El modo solo CPU en Ollama/llama.cpp desactiva explícitamente el uso de GPU y emplea exclusivamente la RAM del sistema.
¿Es estable la inferencia solo CPU?
Sí, más estable que la GPU. Sin cuelgues de controlador, sin errores de memoria de GPU. El único riesgo es la saturación de RAM del sistema, que controlas eligiendo el modelo adecuado.
¿Necesito ajustar configuraciones para CPU Apple Silicon?
No. Ollama detecta automáticamente M1/M2/M3/M4 y usa la memoria unificada de forma eficiente. Apple Silicon es ~10–20% más rápido que las CPU Intel equivalentes gracias a su arquitectura de memoria.