Home/Local LLMs/Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

Hardware & Performance

Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

Last updated: 19 de abril de 2026·10 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Esta guía explica cómo calcular los requisitos exactos de VRAM para cualquier combinación de modelo y hardware. La fórmula es sencilla: (Tamaño del modelo en GB × Bits de cuantización) ÷ 8 = VRAM necesaria.

Calculadora interactiva de VRAM para LLMs locales. Introduce el tamaño del modelo, la cuantización, la longitud del contexto y el tamaño del lote para calcular exactamente cuánta VRAM GPU necesitas. Compatible con modelos de 1B a 405B en FP16, Q8, Q5 y Q4. Actualizado en abril de 2026 con análisis de compatibilidad para RTX 4090, 4080, 3060 y cálculos de sobrecarga.

Slide Deck: Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

La presentación a continuación cubre: fórmula VRAM (Miles de millones del modelo × Bits de cuantización) ÷ 8, niveles de cuantización Q2–FP16 con compromisos de calidad, tabla de referencia rápida (modelos 3B–70B), escenarios GPU del mundo real (RTX 4090, 4080, M5 Max) y cumplimiento regional (GDPR de la UE, APPI de Japón, Ley de Seguridad de Datos de China). Descarga el PDF como tarjeta de referencia de la calculadora de VRAM.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

VRAM = (Tamaño del modelo × Bits de cuantización) ÷ 8
FP16 = 16 bits, Q8 = 8, Q5 = 5, Q4 = 4 bits
Ejemplo: modelo de 13B en Q4 = (13 × 4) ÷ 8 = 6,5 GB
Añade siempre un 25 % de margen para contexto, sobrecarga del sistema y seguridad
A partir de abril de 2026, esta fórmula es precisa dentro de ±10 %

Datos rápidos: requisitos de VRAM por GPU

RTX 4090 (24 GB): Llama 3.3 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB), 70B en Q4 con descarga
RTX 4080 (16 GB): Llama 3.3 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB), 32B en Q4 (16 GB)
RTX 4070 Ti (12 GB): Llama 3.3 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB con margen ajustado)
M5 Max Mac (36 GB unificados): Llama 3.3 13B en FP16 (26 GB), 70B no es posible sin cuantización extrema
Regla general: Siempre presupuesta un 25–40 % adicional de VRAM para contexto, procesamiento por lotes y sobrecarga del sistema más allá del resultado de la fórmula

En una frase

La VRAM necesaria (GB) es igual a los parámetros del modelo en miles de millones multiplicados por los bits de cuantización (16 para FP16, 8 para Q8, 4 para Q4, etc.), divididos entre 8.

En términos simples

Imagina la VRAM como el espacio de una estantería. Los libros más grandes (modelos con más parámetros como 70B) necesitan más espacio. Los libros más pequeños (cuantización Q4) ocupan menos espacio que los grandes (FP16). La fórmula te indica exactamente cuántas "estanterías" (GB) necesitas. Deja siempre espacio extra vacío para conversaciones, múltiples solicitudes simultáneas y el software del sistema.

¿Cuál es la fórmula de VRAM?

La fórmula para el requisito de VRAM es engañosamente sencilla:

💡 Consejo profesional: Esta fórmula calcula solo los pesos del modelo. El uso real de VRAM es entre un 25 y un 40 % mayor debido al contexto, el procesamiento por lotes y la sobrecarga del sistema. Añade siempre un margen de seguridad.

bash

VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8

Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB

- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB

- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GB

Fórmula VRAM con 3 ejemplos de cálculo: modelo de 7B en Q4 = 3,5 GB, 13B en Q5 = 8,1 GB, 70B en Q8 = 70 GB. Añade siempre un 25–40 % de margen para contexto, procesamiento por lotes y sobrecarga del sistema.

Calculadora interactiva de VRAM

Usa esta calculadora para calcular los requisitos exactos de VRAM para cualquier combinación de modelo, cuantización, contexto y tamaño de lote. Selecciona tu configuración y comprueba qué GPU son compatibles.

Popular Models

Model Size

Quantization

Context Length

Batch Size

Use Case

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

Always use the "with safety margin" figure when buying a GPU
Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
Context overhead grows with conversation length. Budget 1-3 GB for typical usage
Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

¿Qué significan los niveles de cuantización?

🔍 Idea clave: La cuantización intercambia tamaño de archivo por calidad. Q5 es el punto óptimo (95 % de calidad, 68 % más pequeño). Q4 es aceptable para la mayoría de los usuarios. Q3 y niveles inferiores son solo para dispositivos edge o cuando la VRAM es críticamente limitada.

Cuantización	Reducción de tamaño	Calidad	Velocidad	Caso de uso
FP16 (16 bits)	Ninguna (base)	100 % (perfecta)	Base	Investigación, fine-tuning
Q8 (8 bits)	50 %	99 % (imperceptible)	Base	Producción, servidores locales
Q6 (6 bits)	62,5 %	98 % (negligible)	Base	Uso equilibrado
Q5 (5 bits)	68,75 %	95 % (pérdida menor)	Base	Buena compresión, consumo
Q4 (4 bits)	75 %	90–95 % (aceptable)	Base	Compresión máxima
Q3 (3 bits)	81 %	80–85 % (pérdida notable)	Más rápido	Compresión extrema, CPU
Q2 (2 bits)	87,5 %	70 % (pérdida visible)	El más rápido	Modelos pequeños, dispositivos edge

Comparación de niveles de cuantización: FP16 (100 % de calidad), Q8 (99 %), Q5 (95 %, recomendado), Q4 (90–95 %), Q3 (80–85 %), Q2 (70 %). Q5 reduce un modelo de 7B de 14 GB a 4,4 GB con solo un 5 % de pérdida de calidad.

Tabla de referencia rápida: VRAM por modelo y cuantización

Modelo	FP16	Q8	Q5	Q4
3B	6 GB	3 GB	1,9 GB	1,5 GB
7B	14 GB	7 GB	4,4 GB	3,5 GB
13B	26 GB	13 GB	8,1 GB	6,5 GB
32B	64 GB	32 GB	20 GB	16 GB
70B	140 GB	70 GB	43,75 GB	35 GB

Matriz de referencia rápida de VRAM: modelos de 3B a 70B en FP16, Q8, Q5 y Q4. Verde = cabe en GPU de 12 GB. Ámbar = requiere 16–24 GB. Rojo = requiere 40+ GB o múltiples GPU.

Ejemplos del mundo real

Cálculos prácticos de VRAM para escenarios habituales:

⚠️ Advertencia: Estos cálculos son solo para los pesos del modelo. Añade un 25–40 % para contexto, procesamiento por lotes y sobrecarga del sistema. Ejemplo: 13B Q5 = 8,1 GB de modelo + 2–3 GB de sobrecarga = 10–11 GB reales.

RTX 4070 Ti (12 GB): Llama 3.3 7B en Q4 = 3,5 GB ✓ (mucho margen). Llama 3.3 13B en Q5 = 8,1 GB ✓ (ajustado, pero funciona sin contexto ni procesamiento por lotes).
RTX 4090 (24 GB): Llama 3.3 70B en Q5 = 43,75 GB ✗ (demasiado grande). Llama 3.3 70B en Q4 = 35 GB ✗ (aún demasiado grande). Llama 3.3 70B en Q4 con descarga = funciona (lento, 3–5 tok/s).
M5 Max Mac (36 GB): Llama 3.3 13B en FP16 = 26 GB ✓ (funciona). Llama 3.3 70B = imposible (incluso en Q2, ~70 % de pérdida de calidad).

Escenarios GPU del mundo real: RTX 4090 (24 GB), RTX 4080 (16 GB), RTX 4070 Ti (12 GB), M5 Max Mac (36 GB) y RTX 3060 (12 GB): qué modelos Llama 3.3 puede ejecutar cada uno a varios niveles de cuantización.

¿Qué sobrecarga oculta de VRAM debes contemplar?

La fórmula calcula solo los pesos del modelo. El uso real de VRAM será mayor por varios factores. Presupuesta un 25–40 % adicional sobre la cantidad calculada.

La ventana de contexto (caché clave-valor) almacena el historial de conversación durante la inferencia. Un contexto de 4k tokens usa aproximadamente 2–3 GB para un modelo de 7B.

📌 Punto clave: El procesamiento por lotes aumenta el uso de VRAM de forma lineal. Cada solicitud simultánea adicional (al procesar varias solicitudes a la vez) consume entre 500 MB y 2 GB de memoria extra. Con batch=4, multiplica la VRAM de solicitud única por 4 y añade la sobrecarga.

La sobrecarga del sistema operativo y del framework de inferencia (Ollama, vLLM, llama.cpp) reserva entre 500 MB y 1 GB. Mantén siempre un margen de seguridad al elegir una GPU.

Desglose de la sobrecarga oculta de VRAM: ventana de contexto (2–3 GB para 4k tokens), procesamiento por lotes (×4 para batch=4), sobrecarga del sistema (500 MB–1 GB) y margen de seguridad total del 25–40 %.

¿Qué LLM local encaja con tu GPU? Guía 2026

Usa la calculadora interactiva de arriba para encontrar tu ajuste exacto. A continuación se muestran escenarios habituales de GPU y modelos recomendados.

RTX 3060 (12 GB): Mejor modelo: Qwen3 7B Q5 (4,4 GB) ✓. Alternativa: Llama 3.2 8B Q4 (4 GB) ✓. No posible: modelos de 32B+.
RTX 4070 (12 GB): Mejor modelo: Qwen3 13B Q4 (6,5 GB) ✓. Con margen: Llama 3.2 8B Q5 (5 GB) ✓. No posible: modelos de 32B.
RTX 4070 Ti (12 GB): Mejor modelo: Qwen3 13B Q5 (8,1 GB) ✓. Ajustado: Llama 3.3 13B Q4 (6,5 GB) ✓. No ideal: procesamiento por lotes.
RTX 4080 (16 GB): Mejor modelo: Qwen3 32B Q4 (16 GB) ✓ ajustado. Cómodo: Mistral 3.1 24B Q5 (15 GB) ✓. Recomendado: Llama 3.3 13B Q8 (13 GB) ✓.
RTX 4090 (24 GB): Mejor modelo: Qwen3 32B Q5 (20 GB) ✓. Con descarga: Llama 3.3 70B Q4 (35 GB – necesita descarga). Cómodo: cualquier 32B en Q5/Q8.
RTX 5090 (32 GB, si disponible): Mejor modelo: Llama 3.3 70B Q4 (35 GB – ajustado). Mejor: Qwen3 72B Q3 (27 GB) ✓. Cómodo: 70B en Q5+ con procesamiento por lotes.

¿Qué tan precisa es la fórmula?

La fórmula es precisa dentro de ±10 % para la mayoría de los casos. El uso real de VRAM varía según la implementación, la arquitectura del modelo y las optimizaciones del motor de inferencia.

Las fuentes de variación incluyen: distintos formatos de cuantización (GGUF vs safetensors vs AWQ), arquitectura del modelo (Transformer vs no-Transformer) y optimizaciones específicas del motor de inferencia (vLLM, llama.cpp, Ollama).

A partir de abril de 2026, trata la fórmula como una estimación conservadora. Añade siempre un margen del 25 % al comprar GPU para contemplar la sobrecarga de contexto, el procesamiento por lotes y los procesos del sistema.

Precisión de la fórmula VRAM ±10 %: variación causada por el formato de cuantización (GGUF vs GPTQ vs AWQ), arquitectura del modelo (Transformer vs MoE) y motor de inferencia (vLLM vs llama.cpp vs Ollama).

Errores comunes en el cálculo de VRAM

Olvidar la sobrecarga de contexto. Un modelo de 7B en Q4 ocupa 3,5 GB, pero con contexto de 4k necesita 5–6 GB en total.
Usar el tamaño del modelo de HuggingFace sin considerar la cuantización. 70B significa 70 000 millones de parámetros, no 70 GB de VRAM.
No contemplar la sobrecarga del sistema. Los modelos nunca obtienen toda la VRAM de la GPU. Reserva 1–2 GB para el sistema operativo y el motor de inferencia.
Comprar GPU exactamente al tamaño calculado. Compra siempre un 25 % más. Si calculas 18 GB, adquiere una GPU de 24 GB.

4 errores comunes de VRAM: olvidar la sobrecarga de contexto (añade 1,5–3 GB), confundir 70B parámetros con 70 GB de VRAM, ignorar 1–2 GB de sobrecarga del sistema y comprar una GPU exactamente al tamaño calculado sin margen del 25 %.

Consideraciones de implementación regional

Unión Europea (GDPR): La inferencia local (on-premises) garantiza el cumplimiento de la residencia de datos bajo el GDPR. Ejecutar modelos en tu propia GPU mantiene los datos de los usuarios dentro del país. Esta calculadora de VRAM te ayuda a dimensionar el hardware para implementaciones que priorizan la privacidad.

España y América Latina (regulaciones locales de datos): Las regulaciones de protección de datos en España y Latinoamérica exigen un tratamiento cuidadoso de los datos personales. La inferencia local de LLMs reduce la transferencia de datos a servidores externos. Usa esta calculadora para dimensionar sistemas para implementaciones empresariales en entornos hispanohablantes.

Japón (APPI): La Ley de Protección de Información Personal (APPI) requiere un manejo cuidadoso de los datos. La inferencia de LLM en dispositivo reduce la transferencia y el procesamiento de datos fuera de Japón. Usa esta calculadora para dimensionar sistemas para implementaciones empresariales japonesas.

China (Ley de Seguridad de Datos): La Ley de Seguridad de Datos de China de 2021 exige la residencia de datos dentro de las fronteras chinas. La inferencia local de LLM en servidores nacionales (Alibaba Cloud, Tencent Cloud) cumple la normativa. Esta fórmula se aplica al dimensionamiento de esas implementaciones con modelos optimizados para China como Qwen3.

En todas las regiones, la inferencia local ofrece garantías de privacidad de datos más sólidas que las API en la nube. Esta calculadora de VRAM es esencial para diseñar sistemas de IA conformes y que preserven la privacidad.

FAQ: VRAM y requisitos de GPU

¿La fórmula funciona para todos los tipos de modelos?

Sí. La fórmula (Miles de millones del modelo × Bits de cuantización) ÷ 8 se aplica a todos los modelos basados en Transformer (Llama, Qwen, Mistral, Claude, etc.). Las arquitecturas no Transformer (RNN, etc.) son poco frecuentes y pueden requerir ajustes.

¿Qué cuantización debo usar?

Para la mayoría de los casos: Q5 ofrece el mejor equilibrio (95 % de calidad, 68 % de reducción de tamaño). Para GPU de consumo: Q4 es el estándar (90–95 % de calidad, 75 % de reducción). Para producción: Q8 si la VRAM lo permite (99 % de calidad). Evita Q3 y niveles inferiores salvo que no tengas otra opción.

¿Cuánta RAM del sistema necesito?

Mínimo 16 GB para la descarga (offloading). Si usas descarga de VRAM (desbordamiento a CPU), la RAM del sistema actúa como respaldo. Para procesamiento por lotes, añade 8–16 GB de RAM del sistema más allá de los requisitos de descarga del modelo. Para chat de un solo usuario, 16 GB son suficientes.

¿El tamaño del lote afecta al cálculo de VRAM?

Sí. La fórmula calcula la VRAM para una sola solicitud. El tamaño del lote añade VRAM de forma lineal: cada solicitud simultánea agrega entre 500 MB y 2 GB según la longitud del contexto. Con batch=4, añade entre 2 y 8 GB a la cantidad calculada.

¿Puedo ejecutar un modelo de 70B en una GPU de 12 GB?

Solo con cuantización extrema (Q2, ~70 % de pérdida de calidad) y descarga a CPU (muy lento, 1–3 tokens/s). No es práctico. Mejor opción: usa un modelo de 13B en Q4 (misma VRAM, mucho más rápido y mejor calidad).

¿Qué pasa si el uso real de VRAM es menor que el calculado?

La fórmula es conservadora e incluye sobrecarga. Un uso real menor significa más margen para procesamiento por lotes, contextos más largos o margen de seguridad. Usa nvidia-smi para medir el uso real y luego benchmarkea tu modelo para confirmar el rendimiento.

Fuentes

Especificación GGUF -- Documentación de ggerganov/ggml sobre el formato de archivo cuantizado.
Documentación de cuantización de Transformers -- Guía oficial de Hugging Face sobre métodos de cuantización.
Documentación de Ollama -- Guías oficiales de Ollama para la gestión de modelos.
Guía de rendimiento de vLLM -- Documentación de optimización del framework vLLM.
Tu VRAM limita el tamaño del modelo, pero el tamaño del modelo no es el único límite para la calidad de salida. Las ventanas de contexto más grandes permiten mejores respuestas: ventanas de contexto explicadas cubre cómo trabajar dentro de las restricciones.

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

Slide Deck: Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

Datos rápidos: requisitos de VRAM por GPU

En una frase

En términos simples

¿Cuál es la fórmula de VRAM?

Calculadora interactiva de VRAM

Compatible GPUs

¿Qué significan los niveles de cuantización?

Tabla de referencia rápida: VRAM por modelo y cuantización

Ejemplos del mundo real

¿Qué sobrecarga oculta de VRAM debes contemplar?

¿Qué LLM local encaja con tu GPU? Guía 2026

¿Qué tan precisa es la fórmula?

Errores comunes en el cálculo de VRAM

Consideraciones de implementación regional

FAQ: VRAM y requisitos de GPU

¿La fórmula funciona para todos los tipos de modelos?

¿Qué cuantización debo usar?

¿Cuánta RAM del sistema necesito?

¿El tamaño del lote afecta al cálculo de VRAM?

¿Puedo ejecutar un modelo de 70B en una GPU de 12 GB?

¿Qué pasa si el uso real de VRAM es menor que el calculado?

Lecturas relacionadas

Fuentes

Nota sobre hechos de terceros