¿Cuánta RAM necesita un modelo 7B?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

Un modelo 7B en cuantización Q4 necesita 5–6 GB de VRAM o RAM para un rendimiento de inferencia eficiente. Regla: parámetros del modelo en miles de millones × 0,7 = GB aproximados en Q4. GPU ofrece ~25 tok/s; CPU ofrece ~5 tok/s con la misma memoria.

▸7B Q4: 5–6 GB de VRAM o memoria unificada
▸7B Q5: 6–7 GB de VRAM
▸7B Q8: 8–9 GB de VRAM

Actualizado: 21 de junio de 2026

Quantization & VRAM

Puntos clave

✓Un modelo 7B en Q4 necesita 5–6 GB de VRAM — reserva 6 GB para incluir la sobrecarga de la ventana de contexto
✓Regla rápida: parámetros en miles de millones × 0,7 = GB aproximados necesarios en Q4
✓Ampliar la ventana de contexto a 16K tokens añade ~4 GB sobre el peso del modelo

La regla rápida para CPU y GPU

A mayo de 2026, un modelo 7B en Q4 necesita 5–6 GB de memoria — ya sea RAM del sistema (inferencia solo en CPU) o VRAM (inferencia en GPU). La cantidad es la misma; lo que cambia es la velocidad. La inferencia en CPU funciona a ~5 tokens por segundo en un procesador moderno de 8 núcleos. La inferencia en GPU funciona a 20–25 tokens por segundo en una tarjeta con VRAM adecuada.

En modo solo-CPU, divide la columna de velocidad GPU por 5× para estimar en un procesador de 8 núcleos. Un modelo 7B en Q4 funciona a ~5 tok/s en CPU, ~25 en GPU. Esta diferencia de 5× es la razón por la que una GPU de bajo coste vale la pena para uso interactivo.

Tamaño del modelo	Memoria Q4	Velocidad GPU
3B	~2 GB	~40 tok/s
7B	~5 GB	~25 tok/s
8B	~5,5 GB	~22 tok/s
13B	~9 GB	~15 tok/s

Cuándo elegir CPU vs GPU

Elige solo CPU cuando tienes 16+ GB de RAM del sistema y tus tareas son por lotes o en segundo plano (análisis nocturno de documentos, resúmenes programados). La tasa de ~5 tok/s es aceptable para trabajo no interactivo y evita completamente los costes de GPU.

Elige GPU cuando necesites chat o programación interactivos. La diferencia de velocidad de 5× importa en uso en tiempo real. Incluso una RTX 3050 de bajo coste con 6 GB ofrece ~22 tok/s en Llama 3 8B Q4_K_M — suficientemente rápido para un chat que se siente instantáneo.

Para el desglose completo de VRAM por nivel de GPU, consulta cuánta VRAM necesita un LLM local. Para la referencia de hardware completa, consulta la guía completa de VRAM para LLMs locales.

Guías relacionadas

▸Mistral Small 24B vs Qwen 14B vs Llama 8B: comparación -- Mistral Small 24B vs Qwen 14B vs Llama 8B comparison
▸Mejor SSD para carga rápida de modelos -- best SSD for fast model loading
▸¿Puedes ejecutar RAG con 2 GB de RAM? -- can you run RAG on 2 GB RAM?

Respuestas rápidas sobre la RAM de modelos 7B

¿Son suficientes 8 GB de RAM del sistema para ejecutar un modelo 7B sin GPU?▾

Sí. En modo solo-CPU, un modelo 7B en Q4 usa ~5–6 GB de RAM del sistema y funciona a 3–6 tok/s en un procesador moderno de 8 núcleos. Consulta la guía de VRAM para opciones con aceleración GPU.

¿Cuánta VRAM necesita exactamente Llama 3 8B?▾

~5,5 GB en Q4_K_M para los pesos del modelo. Añade 0,5–1 GB para una ventana de contexto de 4096 tokens. Reserva 6–7 GB en total para evitar desbordamiento de VRAM.

¿Qué ocurre cuando un modelo supera la VRAM disponible?▾

Ollama descarga capas a la RAM del sistema, que es 10–20× más lenta. El modelo sigue funcionando pero la velocidad de generación cae significativamente. Para evitarlo, reduce la cuantización o el contexto con --num-ctx 2048.

¿La inferencia en GPU es siempre mejor que en CPU?▾

No para todos los casos de uso. Para tareas por lotes, procesamiento programado o uso no interactivo, ~5 tok/s en CPU es aceptable y evita costes de GPU. Para chat o programación en tiempo real, los 20–25 tok/s de la GPU son esenciales.

← Volver a Prompts en breve