¿Los mejores modelos de Ollama solo para CPU?
Respuesta rápida
Sin GPU, Phi-4 Mini en Q4 ofrece el mejor equilibrio entre calidad y velocidad en CPU. Llama 3 8B Q4 funciona con 8 GB de RAM o más. Gemma 2B es la opción CPU más rápida.
- ▸Phi-4 Mini Q4: mejor relación calidad/velocidad en CPU, requiere 4 GB de RAM
- ▸Llama 3 8B Q4: mejor calidad, requiere 8 GB de RAM (más lento)
- ▸Gemma 2B: inferencia CPU más rápida, 2 GB de RAM
Actualizado: 2026-05
Puntos clave
- ✓La inferencia en CPU es entre 5 y 10 veces más lenta que en GPU — espera entre 3 y 6 tok/s en una CPU de escritorio moderna de 8 núcleos
- ✓Phi-4 Mini Q4 es la mejor opción solo para CPU: 4 GB de RAM, ~5 tok/s, excelente calidad de razonamiento
- ✓Gemma 2B es el más rápido en CPU (~6 tok/s) pero ofrece menor calidad de razonamiento que Phi-4 Mini
- ✓La inferencia en CPU es práctica para trabajos por lotes y consultas individuales; demasiado lenta para chat interactivo
La realidad de la velocidad en CPU
A mayo de 2026, la inferencia en CPU funciona a entre 3 y 6 tokens por segundo en una CPU de escritorio moderna de 8 núcleos — aproximadamente entre 5 y 10 veces más lenta que una GPU de gama media. Un modelo 7B en Q4 produce aproximadamente una palabra cada 200–300 milisegundos en CPU.
Esta velocidad es aceptable para dos casos de uso: procesamiento por lotes nocturno (como resumir documentos o clasificar datos) y consultas individuales donde una espera de 30 segundos es aceptable. Para chat interactivo o completado de código en tiempo real, la inferencia en CPU es demasiado lenta para ser práctica.
La restricción fundamental es el ancho de banda de memoria, no la velocidad de reloj de la CPU. Las CPUs de consumo leen la RAM a 40–80 GB/s. Una GPU dedicada lee la VRAM a 400–900 GB/s. La inferencia LLM escala directamente con el ancho de banda de memoria — por eso incluso una GPU de gama media produce una inferencia dramáticamente más rápida que una CPU de alta gama.
Los 3 mejores modelos para uso solo con CPU
El modelo correcto solo para CPU depende de si priorizas calidad o velocidad. Phi-4 Mini Q4 ofrece el mejor equilibrio — proporciona una calidad de razonamiento cercana a Llama 3 8B necesitando solo 4 GB de RAM y funcionando notablemente más rápido.
Gemma 2B es la única opción viable cuando la RAM está limitada a 2 GB. Alcanza ~6 tok/s en CPU pero produce respuestas de calidad notablemente inferior en tareas de razonamiento de múltiples pasos comparado con Phi-4 Mini.
Para la comparativa completa de configuraciones solo con CPU incluyendo requisitos de RAM y optimizaciones a nivel del sistema operativo, consulta la guía de los mejores LLM solo para CPU.
| Modelo | RAM requerida | Velocidad en CPU |
|---|---|---|
| Phi-4 Mini Q4 | 4 GB | ~4–5 tok/s |
| Llama 3 8B Q4 | 8 GB | ~3 tok/s |
| Gemma 2B | 2 GB | ~6 tok/s |