Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)
Hardware & Performance

Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

·10 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Esta guía explica cómo calcular los requisitos exactos de VRAM para cualquier combinación de modelo y hardware. La fórmula es sencilla: (Tamaño del modelo en GB × Bits de cuantización) ÷ 8 = VRAM necesaria.

Calculadora interactiva de VRAM para LLMs locales. Introduce el tamaño del modelo, la cuantización, la longitud del contexto y el tamaño del lote para calcular exactamente cuánta VRAM GPU necesitas. Compatible con modelos de 1B a 405B en FP16, Q8, Q5 y Q4. Actualizado en abril de 2026 con análisis de compatibilidad para RTX 4090, 4080, 3060 y cálculos de sobrecarga.

Slide Deck: Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

La presentación a continuación cubre: fórmula VRAM (Miles de millones del modelo × Bits de cuantización) ÷ 8, niveles de cuantización Q2–FP16 con compromisos de calidad, tabla de referencia rápida (modelos 3B–70B), escenarios GPU del mundo real (RTX 4090, 4080, M5 Max) y cumplimiento regional (GDPR de la UE, APPI de Japón, Ley de Seguridad de Datos de China). Descarga el PDF como tarjeta de referencia de la calculadora de VRAM.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • VRAM = (Tamaño del modelo × Bits de cuantización) ÷ 8
  • FP16 = 16 bits, Q8 = 8, Q5 = 5, Q4 = 4 bits
  • Ejemplo: modelo de 13B en Q4 = (13 × 4) ÷ 8 = 6,5 GB
  • Añade siempre un 25 % de margen para contexto, sobrecarga del sistema y seguridad
  • A partir de abril de 2026, esta fórmula es precisa dentro de ±10 %

Datos rápidos: requisitos de VRAM por GPU

  • RTX 4090 (24 GB): Llama 3.1 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB), 70B en Q4 con descarga
  • RTX 4080 (16 GB): Llama 3.1 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB), 32B en Q4 (16 GB)
  • RTX 4070 Ti (12 GB): Llama 3.1 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB con margen ajustado)
  • M5 Max Mac (36 GB unificados): Llama 3.1 13B en FP16 (26 GB), 70B no es posible sin cuantización extrema
  • Regla general: Siempre presupuesta un 25–40 % adicional de VRAM para contexto, procesamiento por lotes y sobrecarga del sistema más allá del resultado de la fórmula

En una frase

La VRAM necesaria (GB) es igual a los parámetros del modelo en miles de millones multiplicados por los bits de cuantización (16 para FP16, 8 para Q8, 4 para Q4, etc.), divididos entre 8.

En términos simples

Imagina la VRAM como el espacio de una estantería. Los libros más grandes (modelos con más parámetros como 70B) necesitan más espacio. Los libros más pequeños (cuantización Q4) ocupan menos espacio que los grandes (FP16). La fórmula te indica exactamente cuántas "estanterías" (GB) necesitas. Deja siempre espacio extra vacío para conversaciones, múltiples solicitudes simultáneas y el software del sistema.

¿Cuál es la fórmula de VRAM?

La fórmula para el requisito de VRAM es engañosamente sencilla:

💡 Consejo profesional: Esta fórmula calcula solo los pesos del modelo. El uso real de VRAM es entre un 25 y un 40 % mayor debido al contexto, el procesamiento por lotes y la sobrecarga del sistema. Añade siempre un margen de seguridad.

bash
VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8

Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB

- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB

- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GB
Fórmula VRAM con 3 ejemplos de cálculo: modelo de 7B en Q4 = 3,5 GB, 13B en Q5 = 8,1 GB, 70B en Q8 = 70 GB. Añade siempre un 25–40 % de margen para contexto, procesamiento por lotes y sobrecarga del sistema.
Fórmula VRAM con 3 ejemplos de cálculo: modelo de 7B en Q4 = 3,5 GB, 13B en Q5 = 8,1 GB, 70B en Q8 = 70 GB. Añade siempre un 25–40 % de margen para contexto, procesamiento por lotes y sobrecarga del sistema.

Calculadora interactiva de VRAM

Usa esta calculadora para calcular los requisitos exactos de VRAM para cualquier combinación de modelo, cuantización, contexto y tamaño de lote. Selecciona tu configuración y comprueba qué GPU son compatibles.

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

¿Qué significan los niveles de cuantización?

🔍 Idea clave: La cuantización intercambia tamaño de archivo por calidad. Q5 es el punto óptimo (95 % de calidad, 68 % más pequeño). Q4 es aceptable para la mayoría de los usuarios. Q3 y niveles inferiores son solo para dispositivos edge o cuando la VRAM es críticamente limitada.

CuantizaciónReducción de tamañoCalidadVelocidadCaso de uso
FP16 (16 bits)Ninguna (base)100 % (perfecta)BaseInvestigación, fine-tuning
Q8 (8 bits)50 %99 % (imperceptible)BaseProducción, servidores locales
Q6 (6 bits)62,5 %98 % (negligible)BaseUso equilibrado
Q5 (5 bits)68,75 %95 % (pérdida menor)BaseBuena compresión, consumo
Q4 (4 bits)75 %90–95 % (aceptable)BaseCompresión máxima
Q3 (3 bits)81 %80–85 % (pérdida notable)Más rápidoCompresión extrema, CPU
Q2 (2 bits)87,5 %70 % (pérdida visible)El más rápidoModelos pequeños, dispositivos edge
Comparación de niveles de cuantización: FP16 (100 % de calidad), Q8 (99 %), Q5 (95 %, recomendado), Q4 (90–95 %), Q3 (80–85 %), Q2 (70 %). Q5 reduce un modelo de 7B de 14 GB a 4,4 GB con solo un 5 % de pérdida de calidad.
Comparación de niveles de cuantización: FP16 (100 % de calidad), Q8 (99 %), Q5 (95 %, recomendado), Q4 (90–95 %), Q3 (80–85 %), Q2 (70 %). Q5 reduce un modelo de 7B de 14 GB a 4,4 GB con solo un 5 % de pérdida de calidad.

Tabla de referencia rápida: VRAM por modelo y cuantización

ModeloFP16Q8Q5Q4
3B6 GB3 GB1,9 GB1,5 GB
7B14 GB7 GB4,4 GB3,5 GB
13B26 GB13 GB8,1 GB6,5 GB
32B64 GB32 GB20 GB16 GB
70B140 GB70 GB43,75 GB35 GB
Matriz de referencia rápida de VRAM: modelos de 3B a 70B en FP16, Q8, Q5 y Q4. Verde = cabe en GPU de 12 GB. Ámbar = requiere 16–24 GB. Rojo = requiere 40+ GB o múltiples GPU.
Matriz de referencia rápida de VRAM: modelos de 3B a 70B en FP16, Q8, Q5 y Q4. Verde = cabe en GPU de 12 GB. Ámbar = requiere 16–24 GB. Rojo = requiere 40+ GB o múltiples GPU.

Ejemplos del mundo real

Cálculos prácticos de VRAM para escenarios habituales:

⚠️ Advertencia: Estos cálculos son solo para los pesos del modelo. Añade un 25–40 % para contexto, procesamiento por lotes y sobrecarga del sistema. Ejemplo: 13B Q5 = 8,1 GB de modelo + 2–3 GB de sobrecarga = 10–11 GB reales.

  • RTX 4070 Ti (12 GB): Llama 3.1 7B en Q4 = 3,5 GB ✓ (mucho margen). Llama 3.1 13B en Q5 = 8,1 GB ✓ (ajustado, pero funciona sin contexto ni procesamiento por lotes).
  • RTX 4090 (24 GB): Llama 3.1 70B en Q5 = 43,75 GB ✗ (demasiado grande). Llama 3.1 70B en Q4 = 35 GB ✗ (aún demasiado grande). Llama 3.1 70B en Q4 con descarga = funciona (lento, 3–5 tok/s).
  • M5 Max Mac (36 GB): Llama 3.1 13B en FP16 = 26 GB ✓ (funciona). Llama 3.1 70B = imposible (incluso en Q2, ~70 % de pérdida de calidad).
Escenarios GPU del mundo real: RTX 4090 (24 GB), RTX 4080 (16 GB), RTX 4070 Ti (12 GB), M5 Max Mac (36 GB) y RTX 3060 (12 GB): qué modelos Llama 3.1 puede ejecutar cada uno a varios niveles de cuantización.
Escenarios GPU del mundo real: RTX 4090 (24 GB), RTX 4080 (16 GB), RTX 4070 Ti (12 GB), M5 Max Mac (36 GB) y RTX 3060 (12 GB): qué modelos Llama 3.1 puede ejecutar cada uno a varios niveles de cuantización.

¿Qué sobrecarga oculta de VRAM debes contemplar?

La fórmula calcula solo los pesos del modelo. El uso real de VRAM será mayor por varios factores. Presupuesta un 25–40 % adicional sobre la cantidad calculada.

La ventana de contexto (caché clave-valor) almacena el historial de conversación durante la inferencia. Un contexto de 4k tokens usa aproximadamente 2–3 GB para un modelo de 7B.

📌 Punto clave: El procesamiento por lotes aumenta el uso de VRAM de forma lineal. Cada solicitud simultánea adicional (al procesar varias solicitudes a la vez) consume entre 500 MB y 2 GB de memoria extra. Con batch=4, multiplica la VRAM de solicitud única por 4 y añade la sobrecarga.

La sobrecarga del sistema operativo y del framework de inferencia (Ollama, vLLM, llama.cpp) reserva entre 500 MB y 1 GB. Mantén siempre un margen de seguridad al elegir una GPU.

Desglose de la sobrecarga oculta de VRAM: ventana de contexto (2–3 GB para 4k tokens), procesamiento por lotes (×4 para batch=4), sobrecarga del sistema (500 MB–1 GB) y margen de seguridad total del 25–40 %.
Desglose de la sobrecarga oculta de VRAM: ventana de contexto (2–3 GB para 4k tokens), procesamiento por lotes (×4 para batch=4), sobrecarga del sistema (500 MB–1 GB) y margen de seguridad total del 25–40 %.

¿Qué LLM local encaja con tu GPU? Guía 2026

Usa la calculadora interactiva de arriba para encontrar tu ajuste exacto. A continuación se muestran escenarios habituales de GPU y modelos recomendados.

  • RTX 3060 (12 GB): Mejor modelo: Qwen2.5 7B Q5 (4,4 GB) ✓. Alternativa: Llama 3.2 8B Q4 (4 GB) ✓. No posible: modelos de 32B+.
  • RTX 4070 (12 GB): Mejor modelo: Qwen2.5 13B Q4 (6,5 GB) ✓. Con margen: Llama 3.2 8B Q5 (5 GB) ✓. No posible: modelos de 32B.
  • RTX 4070 Ti (12 GB): Mejor modelo: Qwen2.5 13B Q5 (8,1 GB) ✓. Ajustado: Llama 3.3 13B Q4 (6,5 GB) ✓. No ideal: procesamiento por lotes.
  • RTX 4080 (16 GB): Mejor modelo: Qwen2.5 32B Q4 (16 GB) ✓ ajustado. Cómodo: Mistral 3.1 24B Q5 (15 GB) ✓. Recomendado: Llama 3.3 13B Q8 (13 GB) ✓.
  • RTX 4090 (24 GB): Mejor modelo: Qwen2.5 32B Q5 (20 GB) ✓. Con descarga: Llama 3.3 70B Q4 (35 GB – necesita descarga). Cómodo: cualquier 32B en Q5/Q8.
  • RTX 5090 (32 GB, si disponible): Mejor modelo: Llama 3.3 70B Q4 (35 GB – ajustado). Mejor: Qwen2.5 72B Q3 (27 GB) ✓. Cómodo: 70B en Q5+ con procesamiento por lotes.

¿Qué tan precisa es la fórmula?

La fórmula es precisa dentro de ±10 % para la mayoría de los casos. El uso real de VRAM varía según la implementación, la arquitectura del modelo y las optimizaciones del motor de inferencia.

Las fuentes de variación incluyen: distintos formatos de cuantización (GGUF vs safetensors vs AWQ), arquitectura del modelo (Transformer vs no-Transformer) y optimizaciones específicas del motor de inferencia (vLLM, llama.cpp, Ollama).

A partir de abril de 2026, trata la fórmula como una estimación conservadora. Añade siempre un margen del 25 % al comprar GPU para contemplar la sobrecarga de contexto, el procesamiento por lotes y los procesos del sistema.

Precisión de la fórmula VRAM ±10 %: variación causada por el formato de cuantización (GGUF vs GPTQ vs AWQ), arquitectura del modelo (Transformer vs MoE) y motor de inferencia (vLLM vs llama.cpp vs Ollama).
Precisión de la fórmula VRAM ±10 %: variación causada por el formato de cuantización (GGUF vs GPTQ vs AWQ), arquitectura del modelo (Transformer vs MoE) y motor de inferencia (vLLM vs llama.cpp vs Ollama).

Errores comunes en el cálculo de VRAM

  • Olvidar la sobrecarga de contexto. Un modelo de 7B en Q4 ocupa 3,5 GB, pero con contexto de 4k necesita 5–6 GB en total.
  • Usar el tamaño del modelo de HuggingFace sin considerar la cuantización. 70B significa 70 000 millones de parámetros, no 70 GB de VRAM.
  • No contemplar la sobrecarga del sistema. Los modelos nunca obtienen toda la VRAM de la GPU. Reserva 1–2 GB para el sistema operativo y el motor de inferencia.
  • Comprar GPU exactamente al tamaño calculado. Compra siempre un 25 % más. Si calculas 18 GB, adquiere una GPU de 24 GB.
4 errores comunes de VRAM: olvidar la sobrecarga de contexto (añade 1,5–3 GB), confundir 70B parámetros con 70 GB de VRAM, ignorar 1–2 GB de sobrecarga del sistema y comprar una GPU exactamente al tamaño calculado sin margen del 25 %.
4 errores comunes de VRAM: olvidar la sobrecarga de contexto (añade 1,5–3 GB), confundir 70B parámetros con 70 GB de VRAM, ignorar 1–2 GB de sobrecarga del sistema y comprar una GPU exactamente al tamaño calculado sin margen del 25 %.

Consideraciones de implementación regional

Unión Europea (GDPR): La inferencia local (on-premises) garantiza el cumplimiento de la residencia de datos bajo el GDPR. Ejecutar modelos en tu propia GPU mantiene los datos de los usuarios dentro del país. Esta calculadora de VRAM te ayuda a dimensionar el hardware para implementaciones que priorizan la privacidad.

España y América Latina (regulaciones locales de datos): Las regulaciones de protección de datos en España y Latinoamérica exigen un tratamiento cuidadoso de los datos personales. La inferencia local de LLMs reduce la transferencia de datos a servidores externos. Usa esta calculadora para dimensionar sistemas para implementaciones empresariales en entornos hispanohablantes.

Japón (APPI): La Ley de Protección de Información Personal (APPI) requiere un manejo cuidadoso de los datos. La inferencia de LLM en dispositivo reduce la transferencia y el procesamiento de datos fuera de Japón. Usa esta calculadora para dimensionar sistemas para implementaciones empresariales japonesas.

China (Ley de Seguridad de Datos): La Ley de Seguridad de Datos de China de 2021 exige la residencia de datos dentro de las fronteras chinas. La inferencia local de LLM en servidores nacionales (Alibaba Cloud, Tencent Cloud) cumple la normativa. Esta fórmula se aplica al dimensionamiento de esas implementaciones con modelos optimizados para China como Qwen2.5.

En todas las regiones, la inferencia local ofrece garantías de privacidad de datos más sólidas que las API en la nube. Esta calculadora de VRAM es esencial para diseñar sistemas de IA conformes y que preserven la privacidad.

FAQ: VRAM y requisitos de GPU

¿La fórmula funciona para todos los tipos de modelos?

Sí. La fórmula (Miles de millones del modelo × Bits de cuantización) ÷ 8 se aplica a todos los modelos basados en Transformer (Llama, Qwen, Mistral, Claude, etc.). Las arquitecturas no Transformer (RNN, etc.) son poco frecuentes y pueden requerir ajustes.

¿Qué cuantización debo usar?

Para la mayoría de los casos: Q5 ofrece el mejor equilibrio (95 % de calidad, 68 % de reducción de tamaño). Para GPU de consumo: Q4 es el estándar (90–95 % de calidad, 75 % de reducción). Para producción: Q8 si la VRAM lo permite (99 % de calidad). Evita Q3 y niveles inferiores salvo que no tengas otra opción.

¿Cuánta RAM del sistema necesito?

Mínimo 16 GB para la descarga (offloading). Si usas descarga de VRAM (desbordamiento a CPU), la RAM del sistema actúa como respaldo. Para procesamiento por lotes, añade 8–16 GB de RAM del sistema más allá de los requisitos de descarga del modelo. Para chat de un solo usuario, 16 GB son suficientes.

¿El tamaño del lote afecta al cálculo de VRAM?

Sí. La fórmula calcula la VRAM para una sola solicitud. El tamaño del lote añade VRAM de forma lineal: cada solicitud simultánea agrega entre 500 MB y 2 GB según la longitud del contexto. Con batch=4, añade entre 2 y 8 GB a la cantidad calculada.

¿Puedo ejecutar un modelo de 70B en una GPU de 12 GB?

Solo con cuantización extrema (Q2, ~70 % de pérdida de calidad) y descarga a CPU (muy lento, 1–3 tokens/s). No es práctico. Mejor opción: usa un modelo de 13B en Q4 (misma VRAM, mucho más rápido y mejor calidad).

¿Qué pasa si el uso real de VRAM es menor que el calculado?

La fórmula es conservadora e incluye sobrecarga. Un uso real menor significa más margen para procesamiento por lotes, contextos más largos o margen de seguridad. Usa nvidia-smi para medir el uso real y luego benchmarkea tu modelo para confirmar el rendimiento.

Fuentes

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)