¿Los mejores modelos de Ollama solo para CPU?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

Sin GPU, Phi-4 Mini en Q4 ofrece el mejor equilibrio entre calidad y velocidad en CPU. Llama 3 8B Q4 funciona con 8 GB de RAM o más. Gemma 2B es la opción CPU más rápida.

▸Phi-4 Mini Q4: mejor relación calidad/velocidad en CPU, requiere 4 GB de RAM
▸Llama 3 8B Q4: mejor calidad, requiere 8 GB de RAM (más lento)
▸Gemma 2B: inferencia CPU más rápida, 2 GB de RAM

Actualizado: 21 de junio de 2026

Ollama

Puntos clave

✓La inferencia en CPU es entre 5 y 10 veces más lenta que en GPU — espera entre 3 y 6 tok/s en una CPU de escritorio moderna de 8 núcleos
✓Phi-4 Mini Q4 es la mejor opción solo para CPU: 4 GB de RAM, ~5 tok/s, excelente calidad de razonamiento
✓Gemma 2B es el más rápido en CPU (~6 tok/s) pero ofrece menor calidad de razonamiento que Phi-4 Mini
✓La inferencia en CPU es práctica para trabajos por lotes y consultas individuales; demasiado lenta para chat interactivo

La realidad de la velocidad en CPU

A mayo de 2026, la inferencia en CPU funciona a entre 3 y 6 tokens por segundo en una CPU de escritorio moderna de 8 núcleos — aproximadamente entre 5 y 10 veces más lenta que una GPU de gama media. Un modelo 7B en Q4 produce aproximadamente una palabra cada 200–300 milisegundos en CPU.

Esta velocidad es aceptable para dos casos de uso: procesamiento por lotes nocturno (como resumir documentos o clasificar datos) y consultas individuales donde una espera de 30 segundos es aceptable. Para chat interactivo o completado de código en tiempo real, la inferencia en CPU es demasiado lenta para ser práctica.

La restricción fundamental es el ancho de banda de memoria, no la velocidad de reloj de la CPU. Las CPUs de consumo leen la RAM a 40–80 GB/s. Una GPU dedicada lee la VRAM a 400–900 GB/s. La inferencia LLM escala directamente con el ancho de banda de memoria — por eso incluso una GPU de gama media produce una inferencia dramáticamente más rápida que una CPU de alta gama.

Los 3 mejores modelos para uso solo con CPU

El modelo correcto solo para CPU depende de si priorizas calidad o velocidad. Phi-4 Mini Q4 ofrece el mejor equilibrio — proporciona una calidad de razonamiento cercana a Llama 3 8B necesitando solo 4 GB de RAM y funcionando notablemente más rápido.

Gemma 2B es la única opción viable cuando la RAM está limitada a 2 GB. Alcanza ~6 tok/s en CPU pero produce respuestas de calidad notablemente inferior en tareas de razonamiento de múltiples pasos comparado con Phi-4 Mini.

Para la comparativa completa de configuraciones solo con CPU incluyendo requisitos de RAM y optimizaciones a nivel del sistema operativo, consulta la guía de los mejores LLM solo para CPU.

Modelo	RAM requerida	Velocidad en CPU
Phi-4 Mini Q4	4 GB	~4–5 tok/s
Llama 3 8B Q4	8 GB	~3 tok/s
Gemma 2B	2 GB	~6 tok/s

Guías relacionadas

▸Radeon 6800M para LLM local: Guía completa de configuración -- Radeon GPU guide
▸Strix Halo + Ollama + Vulkan: Guía de rendimiento -- Strix Halo guide

Respuestas rápidas sobre los LLM solo para CPU

¿Cuánta RAM necesito para Ollama solo con CPU?▾

Mínimo 2 GB para Gemma 2B. 4 GB para Phi-4 Mini Q4. 8 GB para Llama 3 8B Q4. Añade entre 1 y 2 GB adicionales sobre el tamaño del modelo para la carga del sistema operativo y el tiempo de ejecución de Ollama.

¿Por qué la inferencia en CPU es tan lenta en comparación con la GPU?▾

La inferencia LLM está limitada por el ancho de banda de memoria. Las CPUs de consumo leen la RAM a 40–80 GB/s. Una GPU de gama media lee la VRAM a 400–900 GB/s. Esa diferencia de ancho de banda de 10 veces se traduce directamente en una generación de tokens entre 5 y 10 veces más lenta.

¿Puedo usar Ollama en un portátil sin GPU dedicada?▾

Sí. Ollama se ejecuta automáticamente en la CPU cuando no se detecta ninguna GPU. Espera entre 3 y 5 tok/s en una CPU moderna de portátil. Consulta los mejores modelos de Ollama ahora mismo para recomendaciones por nivel de GPU si más adelante haces una actualización.

¿Qué CPUs son más rápidas para la inferencia de LLM local?▾

Los chips Apple M-series (M3, M4) utilizan arquitectura de memoria unificada y alcanzan entre 15 y 30 tok/s en modelos 7B — muy superiores a las CPUs x86 en inferencia solo con CPU. Entre las CPUs x86, las que tienen mayor ancho de banda de memoria y caché L3 grande rinden mejor.

← Volver a Prompts en breve