Key Takeaways
- VRAM = (Tamaño del modelo × Bits de cuantización) ÷ 8
- FP16 = 16 bits, Q8 = 8, Q5 = 5, Q4 = 4 bits
- Ejemplo: modelo de 13B en Q4 = (13 × 4) ÷ 8 = 6,5 GB
- Añade siempre un 25 % de margen para contexto, sobrecarga del sistema y seguridad
- A partir de abril de 2026, esta fórmula es precisa dentro de ±10 %
Datos rápidos: requisitos de VRAM por GPU
- RTX 4090 (24 GB): Llama 3.1 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB), 70B en Q4 con descarga
- RTX 4080 (16 GB): Llama 3.1 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB), 32B en Q4 (16 GB)
- RTX 4070 Ti (12 GB): Llama 3.1 7B en Q4 (3,5 GB), 13B en Q5 (8,1 GB con margen ajustado)
- M5 Max Mac (36 GB unificados): Llama 3.1 13B en FP16 (26 GB), 70B no es posible sin cuantización extrema
- Regla general: Siempre presupuesta un 25–40 % adicional de VRAM para contexto, procesamiento por lotes y sobrecarga del sistema más allá del resultado de la fórmula
En una frase
La VRAM necesaria (GB) es igual a los parámetros del modelo en miles de millones multiplicados por los bits de cuantización (16 para FP16, 8 para Q8, 4 para Q4, etc.), divididos entre 8.
En términos simples
Imagina la VRAM como el espacio de una estantería. Los libros más grandes (modelos con más parámetros como 70B) necesitan más espacio. Los libros más pequeños (cuantización Q4) ocupan menos espacio que los grandes (FP16). La fórmula te indica exactamente cuántas "estanterías" (GB) necesitas. Deja siempre espacio extra vacío para conversaciones, múltiples solicitudes simultáneas y el software del sistema.
¿Cuál es la fórmula de VRAM?
La fórmula para el requisito de VRAM es engañosamente sencilla:
💡 Consejo profesional: Esta fórmula calcula solo los pesos del modelo. El uso real de VRAM es entre un 25 y un 40 % mayor debido al contexto, el procesamiento por lotes y la sobrecarga del sistema. Añade siempre un margen de seguridad.
VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8
Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB
- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB
- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GBCalculadora interactiva de VRAM
Usa esta calculadora para calcular los requisitos exactos de VRAM para cualquier combinación de modelo, cuantización, contexto y tamaño de lote. Selecciona tu configuración y comprueba qué GPU son compatibles.
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
👉 Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
💡 Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
📋 Share this configuration:
¿Qué significan los niveles de cuantización?
🔍 Idea clave: La cuantización intercambia tamaño de archivo por calidad. Q5 es el punto óptimo (95 % de calidad, 68 % más pequeño). Q4 es aceptable para la mayoría de los usuarios. Q3 y niveles inferiores son solo para dispositivos edge o cuando la VRAM es críticamente limitada.
| Cuantización | Reducción de tamaño | Calidad | Velocidad | Caso de uso |
|---|---|---|---|---|
| FP16 (16 bits) | Ninguna (base) | 100 % (perfecta) | Base | Investigación, fine-tuning |
| Q8 (8 bits) | 50 % | 99 % (imperceptible) | Base | Producción, servidores locales |
| Q6 (6 bits) | 62,5 % | 98 % (negligible) | Base | Uso equilibrado |
| Q5 (5 bits) | 68,75 % | 95 % (pérdida menor) | Base | Buena compresión, consumo |
| Q4 (4 bits) | 75 % | 90–95 % (aceptable) | Base | Compresión máxima |
| Q3 (3 bits) | 81 % | 80–85 % (pérdida notable) | Más rápido | Compresión extrema, CPU |
| Q2 (2 bits) | 87,5 % | 70 % (pérdida visible) | El más rápido | Modelos pequeños, dispositivos edge |
Tabla de referencia rápida: VRAM por modelo y cuantización
| Modelo | FP16 | Q8 | Q5 | Q4 |
|---|---|---|---|---|
| 3B | 6 GB | 3 GB | 1,9 GB | 1,5 GB |
| 7B | 14 GB | 7 GB | 4,4 GB | 3,5 GB |
| 13B | 26 GB | 13 GB | 8,1 GB | 6,5 GB |
| 32B | 64 GB | 32 GB | 20 GB | 16 GB |
| 70B | 140 GB | 70 GB | 43,75 GB | 35 GB |
Ejemplos del mundo real
Cálculos prácticos de VRAM para escenarios habituales:
⚠️ Advertencia: Estos cálculos son solo para los pesos del modelo. Añade un 25–40 % para contexto, procesamiento por lotes y sobrecarga del sistema. Ejemplo: 13B Q5 = 8,1 GB de modelo + 2–3 GB de sobrecarga = 10–11 GB reales.
- RTX 4070 Ti (12 GB): Llama 3.1 7B en Q4 = 3,5 GB ✓ (mucho margen). Llama 3.1 13B en Q5 = 8,1 GB ✓ (ajustado, pero funciona sin contexto ni procesamiento por lotes).
- RTX 4090 (24 GB): Llama 3.1 70B en Q5 = 43,75 GB ✗ (demasiado grande). Llama 3.1 70B en Q4 = 35 GB ✗ (aún demasiado grande). Llama 3.1 70B en Q4 con descarga = funciona (lento, 3–5 tok/s).
- M5 Max Mac (36 GB): Llama 3.1 13B en FP16 = 26 GB ✓ (funciona). Llama 3.1 70B = imposible (incluso en Q2, ~70 % de pérdida de calidad).
¿Qué LLM local encaja con tu GPU? Guía 2026
Usa la calculadora interactiva de arriba para encontrar tu ajuste exacto. A continuación se muestran escenarios habituales de GPU y modelos recomendados.
- RTX 3060 (12 GB): Mejor modelo: Qwen2.5 7B Q5 (4,4 GB) ✓. Alternativa: Llama 3.2 8B Q4 (4 GB) ✓. No posible: modelos de 32B+.
- RTX 4070 (12 GB): Mejor modelo: Qwen2.5 13B Q4 (6,5 GB) ✓. Con margen: Llama 3.2 8B Q5 (5 GB) ✓. No posible: modelos de 32B.
- RTX 4070 Ti (12 GB): Mejor modelo: Qwen2.5 13B Q5 (8,1 GB) ✓. Ajustado: Llama 3.3 13B Q4 (6,5 GB) ✓. No ideal: procesamiento por lotes.
- RTX 4080 (16 GB): Mejor modelo: Qwen2.5 32B Q4 (16 GB) ✓ ajustado. Cómodo: Mistral 3.1 24B Q5 (15 GB) ✓. Recomendado: Llama 3.3 13B Q8 (13 GB) ✓.
- RTX 4090 (24 GB): Mejor modelo: Qwen2.5 32B Q5 (20 GB) ✓. Con descarga: Llama 3.3 70B Q4 (35 GB – necesita descarga). Cómodo: cualquier 32B en Q5/Q8.
- RTX 5090 (32 GB, si disponible): Mejor modelo: Llama 3.3 70B Q4 (35 GB – ajustado). Mejor: Qwen2.5 72B Q3 (27 GB) ✓. Cómodo: 70B en Q5+ con procesamiento por lotes.
¿Qué tan precisa es la fórmula?
La fórmula es precisa dentro de ±10 % para la mayoría de los casos. El uso real de VRAM varía según la implementación, la arquitectura del modelo y las optimizaciones del motor de inferencia.
Las fuentes de variación incluyen: distintos formatos de cuantización (GGUF vs safetensors vs AWQ), arquitectura del modelo (Transformer vs no-Transformer) y optimizaciones específicas del motor de inferencia (vLLM, llama.cpp, Ollama).
A partir de abril de 2026, trata la fórmula como una estimación conservadora. Añade siempre un margen del 25 % al comprar GPU para contemplar la sobrecarga de contexto, el procesamiento por lotes y los procesos del sistema.
Errores comunes en el cálculo de VRAM
- Olvidar la sobrecarga de contexto. Un modelo de 7B en Q4 ocupa 3,5 GB, pero con contexto de 4k necesita 5–6 GB en total.
- Usar el tamaño del modelo de HuggingFace sin considerar la cuantización. 70B significa 70 000 millones de parámetros, no 70 GB de VRAM.
- No contemplar la sobrecarga del sistema. Los modelos nunca obtienen toda la VRAM de la GPU. Reserva 1–2 GB para el sistema operativo y el motor de inferencia.
- Comprar GPU exactamente al tamaño calculado. Compra siempre un 25 % más. Si calculas 18 GB, adquiere una GPU de 24 GB.
Consideraciones de implementación regional
Unión Europea (GDPR): La inferencia local (on-premises) garantiza el cumplimiento de la residencia de datos bajo el GDPR. Ejecutar modelos en tu propia GPU mantiene los datos de los usuarios dentro del país. Esta calculadora de VRAM te ayuda a dimensionar el hardware para implementaciones que priorizan la privacidad.
España y América Latina (regulaciones locales de datos): Las regulaciones de protección de datos en España y Latinoamérica exigen un tratamiento cuidadoso de los datos personales. La inferencia local de LLMs reduce la transferencia de datos a servidores externos. Usa esta calculadora para dimensionar sistemas para implementaciones empresariales en entornos hispanohablantes.
Japón (APPI): La Ley de Protección de Información Personal (APPI) requiere un manejo cuidadoso de los datos. La inferencia de LLM en dispositivo reduce la transferencia y el procesamiento de datos fuera de Japón. Usa esta calculadora para dimensionar sistemas para implementaciones empresariales japonesas.
China (Ley de Seguridad de Datos): La Ley de Seguridad de Datos de China de 2021 exige la residencia de datos dentro de las fronteras chinas. La inferencia local de LLM en servidores nacionales (Alibaba Cloud, Tencent Cloud) cumple la normativa. Esta fórmula se aplica al dimensionamiento de esas implementaciones con modelos optimizados para China como Qwen2.5.
En todas las regiones, la inferencia local ofrece garantías de privacidad de datos más sólidas que las API en la nube. Esta calculadora de VRAM es esencial para diseñar sistemas de IA conformes y que preserven la privacidad.
FAQ: VRAM y requisitos de GPU
¿La fórmula funciona para todos los tipos de modelos?
Sí. La fórmula (Miles de millones del modelo × Bits de cuantización) ÷ 8 se aplica a todos los modelos basados en Transformer (Llama, Qwen, Mistral, Claude, etc.). Las arquitecturas no Transformer (RNN, etc.) son poco frecuentes y pueden requerir ajustes.
¿Qué cuantización debo usar?
Para la mayoría de los casos: Q5 ofrece el mejor equilibrio (95 % de calidad, 68 % de reducción de tamaño). Para GPU de consumo: Q4 es el estándar (90–95 % de calidad, 75 % de reducción). Para producción: Q8 si la VRAM lo permite (99 % de calidad). Evita Q3 y niveles inferiores salvo que no tengas otra opción.
¿Cuánta RAM del sistema necesito?
Mínimo 16 GB para la descarga (offloading). Si usas descarga de VRAM (desbordamiento a CPU), la RAM del sistema actúa como respaldo. Para procesamiento por lotes, añade 8–16 GB de RAM del sistema más allá de los requisitos de descarga del modelo. Para chat de un solo usuario, 16 GB son suficientes.
¿El tamaño del lote afecta al cálculo de VRAM?
Sí. La fórmula calcula la VRAM para una sola solicitud. El tamaño del lote añade VRAM de forma lineal: cada solicitud simultánea agrega entre 500 MB y 2 GB según la longitud del contexto. Con batch=4, añade entre 2 y 8 GB a la cantidad calculada.
¿Puedo ejecutar un modelo de 70B en una GPU de 12 GB?
Solo con cuantización extrema (Q2, ~70 % de pérdida de calidad) y descarga a CPU (muy lento, 1–3 tokens/s). No es práctico. Mejor opción: usa un modelo de 13B en Q4 (misma VRAM, mucho más rápido y mejor calidad).
¿Qué pasa si el uso real de VRAM es menor que el calculado?
La fórmula es conservadora e incluye sobrecarga. Un uso real menor significa más margen para procesamiento por lotes, contextos más largos o margen de seguridad. Usa nvidia-smi para medir el uso real y luego benchmarkea tu modelo para confirmar el rendimiento.
Fuentes
- Especificación GGUF -- Documentación de ggerganov/ggml sobre el formato de archivo cuantizado.
- Documentación de cuantización de Transformers -- Guía oficial de Hugging Face sobre métodos de cuantización.
- Documentación de Ollama -- Guías oficiales de Ollama para la gestión de modelos.
- Guía de rendimiento de vLLM -- Documentación de optimización del framework vLLM.
- Tu VRAM limita el tamaño del modelo, pero el tamaño del modelo no es el único límite para la calidad de salida. Las ventanas de contexto más grandes permiten mejores respuestas: ventanas de contexto explicadas cubre cómo trabajar dentro de las restricciones.