¿Cuánta VRAM necesitas para un LLM local?
Respuesta rápida
4 GB de VRAM soporta Phi-4 Mini y Gemma 2B cómodamente con margen para expansión de contexto. 6 GB ejecuta Llama 3 8B en Q4. 12 GB aloja Qwen 14B Q4 eficientemente. Los modelos 70B en Q4 requieren 16+ GB.
- ▸4 GB: Phi-4 Mini Q4, Gemma 2 2B
- ▸6 GB: Llama 3 8B Q4_K_M
- ▸8–12 GB: Mistral 7B Q5, Qwen 14B Q4
Actualizado: 2026-05
Puntos clave
- ✓4 GB de VRAM ejecuta Phi-4 Mini Q4 y Gemma 2 2B sin problemas
- ✓6 GB es el punto de entrada para Llama 3 8B en Q4_K_M — el modelo local más popular
- ✓12 GB desbloquea Qwen 14B Q4, el mejor escalón de calidad por precio
- ✓Los modelos 70B requieren 40+ GB — planifica con dual RTX 3090 o Apple M-series con mucha memoria unificada
Requisitos de VRAM por tamaño de modelo
A mayo de 2026, el consumo de VRAM de un modelo sigue una fórmula sencilla: parámetros en miles de millones × 0,7 = GB aproximados en cuantización Q4. Un modelo 7B necesita ~4,9 GB para los pesos, más 0,5–1 GB de sobrecarga de contexto. Por eso 6 GB es el mínimo para el rango 7–8B, y 12 GB desbloquea el rango 14B con margen.
Usa la tabla siguiente como referencia rápida. La columna "Velocidad" asume Ollama en una GPU de escritorio con contexto predeterminado (2048 tokens).
Deja siempre 1–2 GB de VRAM libres por encima de las necesidades declaradas del modelo. El sistema operativo, las pestañas del navegador y el runtime de Ollama consumen 500 MB–1 GB incluso sin modelo cargado. Una tarjeta de 6 GB ejecutando un modelo de 5,5 GB solo deja 500 MB de margen — tendrás errores de memoria en cuanto aumente --num-ctx más allá de 2048 tokens. Para el rango de 6 GB con margen seguro, consulta los mejores LLMs locales para 6 GB de VRAM.
| VRAM | Mejor modelo en Q4_K_M | Velocidad |
|---|---|---|
| 4 GB | Phi-4 Mini Q4 | ~25 tok/s |
| 6 GB | Llama 3 8B Q4_K_M | ~20 tok/s |
| 8 GB | Mistral 7B Q5_K_M | ~18 tok/s |
| 12 GB | Qwen 14B Q4_K_M | ~15 tok/s |
| 16+ GB | Qwen 32B Q4 o Llama 70B parcial | ~8 tok/s |
Qué hacer cuando la VRAM no es suficiente
Si un modelo supera tu VRAM tienes tres opciones: reducir la cuantización (Q4_K_M en lugar de Q5), reducir la ventana de contexto con --num-ctx 2048, o dejar que Ollama descargue capas en la RAM del sistema.
El offloading a CPU funciona pero es lento — cada capa movida a RAM añade latencia. Para uso interactivo, mantente dentro del límite de VRAM de tu GPU. Reducir el contexto de 4096 a 2048 tokens ahorra aproximadamente 2 GB en un modelo 7B.
Para un desglose completo de tamaños de modelos y el cálculo de estimación de VRAM, consulta la guía completa de VRAM para LLMs locales. Para el rango 7B específicamente, consulta cuánta RAM necesita un modelo 7B.
Respuestas rápidas sobre la VRAM
¿Son suficientes 8 GB de VRAM para LLMs locales?▾
¿Puedo ejecutar un modelo 7B con 4 GB de VRAM?▾
¿Afecta el tamaño de la ventana de contexto al uso de VRAM?▾
¿Qué hago si mi modelo usa más VRAM de lo esperado?▾
--num-ctx 2048 en tu comando de Ollama. Esto reduce el uso de VRAM hasta en 2 GB en modelos 7B sin modificar el archivo del modelo.