¿Cuánta RAM necesita un modelo 7B?
Respuesta rápida
Un modelo 7B en cuantización Q4 necesita 5–6 GB de VRAM o RAM para un rendimiento de inferencia eficiente. Regla: parámetros del modelo en miles de millones × 0,7 = GB aproximados en Q4. GPU ofrece ~25 tok/s; CPU ofrece ~5 tok/s con la misma memoria.
- ▸7B Q4: 5–6 GB de VRAM o memoria unificada
- ▸7B Q5: 6–7 GB de VRAM
- ▸7B Q8: 8–9 GB de VRAM
Actualizado: 2026-05
Puntos clave
- ✓Un modelo 7B en Q4 necesita 5–6 GB de VRAM — reserva 6 GB para incluir la sobrecarga de la ventana de contexto
- ✓Regla rápida: parámetros en miles de millones × 0,7 = GB aproximados necesarios en Q4
- ✓Ampliar la ventana de contexto a 16K tokens añade ~4 GB sobre el peso del modelo
La regla rápida para CPU y GPU
A mayo de 2026, un modelo 7B en Q4 necesita 5–6 GB de memoria — ya sea RAM del sistema (inferencia solo en CPU) o VRAM (inferencia en GPU). La cantidad es la misma; lo que cambia es la velocidad. La inferencia en CPU funciona a ~5 tokens por segundo en un procesador moderno de 8 núcleos. La inferencia en GPU funciona a 20–25 tokens por segundo en una tarjeta con VRAM adecuada.
En modo solo-CPU, divide la columna de velocidad GPU por 5× para estimar en un procesador de 8 núcleos. Un modelo 7B en Q4 funciona a ~5 tok/s en CPU, ~25 en GPU. Esta diferencia de 5× es la razón por la que una GPU de bajo coste vale la pena para uso interactivo.
| Tamaño del modelo | Memoria Q4 | Velocidad GPU |
|---|---|---|
| 3B | ~2 GB | ~40 tok/s |
| 7B | ~5 GB | ~25 tok/s |
| 8B | ~5,5 GB | ~22 tok/s |
| 13B | ~9 GB | ~15 tok/s |
Cuándo elegir CPU vs GPU
Elige solo CPU cuando tienes 16+ GB de RAM del sistema y tus tareas son por lotes o en segundo plano (análisis nocturno de documentos, resúmenes programados). La tasa de ~5 tok/s es aceptable para trabajo no interactivo y evita completamente los costes de GPU.
Elige GPU cuando necesites chat o programación interactivos. La diferencia de velocidad de 5× importa en uso en tiempo real. Incluso una RTX 3050 de bajo coste con 6 GB ofrece ~22 tok/s en Llama 3 8B Q4_K_M — suficientemente rápido para un chat que se siente instantáneo.
Para el desglose completo de VRAM por nivel de GPU, consulta cuánta VRAM necesita un LLM local. Para la referencia de hardware completa, consulta la guía completa de VRAM para LLMs locales.
Respuestas rápidas sobre la RAM de modelos 7B
¿Son suficientes 8 GB de RAM del sistema para ejecutar un modelo 7B sin GPU?▾
¿Cuánta VRAM necesita exactamente Llama 3 8B?▾
¿Qué ocurre cuando un modelo supera la VRAM disponible?▾
--num-ctx 2048.