¿Cuánta VRAM necesitas para un LLM local?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

4 GB de VRAM soporta Phi-4 Mini y Gemma 2B cómodamente con margen para expansión de contexto. 6 GB ejecuta Llama 3 8B en Q4. 12 GB aloja Qwen 14B Q4 eficientemente. Los modelos 70B en Q4 requieren 16+ GB.

▸4 GB: Phi-4 Mini Q4, Gemma 2 2B
▸6 GB: Llama 3 8B Q4_K_M
▸8–12 GB: Mistral Small Q5, Qwen 14B Q4

Actualizado: 2 de junio de 2026

Quantization & VRAM

Puntos clave

✓4 GB de VRAM ejecuta Phi-4 Mini Q4 y Gemma 2 2B sin problemas
✓6 GB es el punto de entrada para Llama 3 8B en Q4_K_M — el modelo local más popular
✓12 GB desbloquea Qwen 14B Q4, el mejor escalón de calidad por precio
✓Los modelos 70B requieren 40+ GB — planifica con dual RTX 3090 o Apple M-series con mucha memoria unificada

Requisitos de VRAM por tamaño de modelo

A mayo de 2026, el consumo de VRAM de un modelo sigue una fórmula sencilla: parámetros en miles de millones × 0,7 = GB aproximados en cuantización Q4. Un modelo 7B necesita ~4,9 GB para los pesos, más 0,5–1 GB de sobrecarga de contexto. Por eso 6 GB es el mínimo para el rango 7–8B, y 12 GB desbloquea el rango 14B con margen.

Usa la tabla siguiente como referencia rápida. La columna "Velocidad" asume Ollama en una GPU de escritorio con contexto predeterminado (2048 tokens).

Deja siempre 1–2 GB de VRAM libres por encima de las necesidades declaradas del modelo. El sistema operativo, las pestañas del navegador y el runtime de Ollama consumen 500 MB–1 GB incluso sin modelo cargado. Una tarjeta de 6 GB ejecutando un modelo de 5,5 GB solo deja 500 MB de margen — tendrás errores de memoria en cuanto aumente --num-ctx más allá de 2048 tokens. Para el rango de 6 GB con margen seguro, consulta los mejores LLMs locales para 6 GB de VRAM.

VRAM	Mejor modelo en Q4_K_M	Velocidad
4 GB	Phi-4 Mini Q4	~25 tok/s
6 GB	Llama 3 8B Q4_K_M	~20 tok/s
8 GB	Mistral Small Q5_K_M	~18 tok/s
12 GB	Qwen 14B Q4_K_M	~15 tok/s
16+ GB	Qwen 32B Q4 o Llama 70B parcial	~8 tok/s

Qué hacer cuando la VRAM no es suficiente

Si un modelo supera tu VRAM tienes tres opciones: reducir la cuantización (Q4_K_M en lugar de Q5), reducir la ventana de contexto con --num-ctx 2048, o dejar que Ollama descargue capas en la RAM del sistema.

El offloading a CPU funciona pero es lento — cada capa movida a RAM añade latencia. Para uso interactivo, mantente dentro del límite de VRAM de tu GPU. Reducir el contexto de 4096 a 2048 tokens ahorra aproximadamente 2 GB en un modelo 7B.

Para un desglose completo de tamaños de modelos y el cálculo de estimación de VRAM, consulta la guía completa de VRAM para LLMs locales. Para el rango 7B específicamente, consulta cuánta RAM necesita un modelo 7B.

Respuestas rápidas sobre la VRAM

¿Son suficientes 8 GB de VRAM para LLMs locales?▾

Sí. Con 8 GB puedes ejecutar Llama 3 8B en Q5_K_M a unos 18 tokens por segundo, o Mistral Small en Q5_K_M con margen de sobra. La mayoría de las tareas cotidianas de chat y programación están bien cubiertas en este rango.

¿Puedo ejecutar un modelo 7B con 4 GB de VRAM?▾

No. Un modelo 7B en Q4 necesita 5–6 GB de VRAM. La cuantización más pequeña utilizable sigue superando los 4 GB. Consulta cuánta RAM necesita un modelo 7B para el desglose completo.

¿Afecta el tamaño de la ventana de contexto al uso de VRAM?▾

Sí. Cada 1.000 tokens adicionales de contexto consume aproximadamente 250 MB de VRAM en un modelo 7B. El contexto predeterminado de 2048 tokens usa ~0,5 GB; 16.384 tokens usan ~4 GB adicionales sobre el peso del modelo.

¿Qué hago si mi modelo usa más VRAM de lo esperado?▾

Establece --num-ctx 2048 en tu comando de Ollama. Esto reduce el uso de VRAM hasta en 2 GB en modelos 7B sin modificar el archivo del modelo.

← Volver a Prompts en breve