¿Cuánta VRAM necesita un modelo 70B?
Respuesta rápida
Un modelo 70B en Q4_K_M necesita aproximadamente 40 GB de VRAM. Opciones de consumo: dos RTX 3090 (48 GB en total), M5 Max con 128 GB de memoria unificada, o alquiler de GPU en la nube.
- ▸Q4_K_M 70B: ~40 GB de VRAM necesarios
- ▸Dual RTX 3090 (48 GB en total): opción de escritorio de consumo
- ▸M5 Max 128 GB de memoria unificada: mejor experiencia en un solo equipo
Actualizado: 2026-05
Puntos clave
- ✓Un modelo 70B en Q4_K_M necesita aproximadamente 40 GB de VRAM
- ✓Opciones de hardware de consumo: dual RTX 3090 (48 GB) o Apple M5 Max con 128 GB de memoria unificada
- ✓Para uso ocasional de menos de 5 horas por semana, el alquiler de GPU en la nube a $0,50–$1,50/h es más barato que comprar hardware
Opciones de hardware para ejecutar un modelo 70B
A mayo de 2026, un modelo 70B en Q4_K_M representa aproximadamente 40 GB de pesos comprimidos — 1,7× una RTX 4090 individual y 1,6× una RTX 3090 individual. Por eso 70B es el nivel más difícil de ejecutar localmente: cruza la frontera entre las GPUs de consumo (máx. 24 GB) y el hardware de estación de trabajo. Existen tres caminos, cada uno con diferentes compromisos.
Apple M5 Max con 128 GB de memoria unificada es la opción de equipo único más fluida — sin cuello de botella PCIe entre la memoria CPU y GPU, y macOS gestiona la asignación automáticamente. Los dual RTX 3090 funcionan pero requieren un escritorio de nivel estación de trabajo y una configuración cuidadosa de controladores.
| Hardware | VRAM total | Velocidad |
|---|---|---|
| Dual RTX 3090 | 48 GB | ~8 tok/s |
| RTX 3090 + offload CPU | 24 GB + 32 GB RAM | ~3 tok/s |
| Apple M5 Max 128 GB | 128 GB unificada | ~15 tok/s |
| RunPod H100 (nube) | 80 GB | ~50 tok/s |
Cuándo la nube tiene más sentido que lo local
El alquiler de GPU en la nube para inferencia 70B cuesta $0,50–$1,50 por hora en RunPod y Lambda Labs a mayo de 2026. Un setup de dual RTX 3090 cuesta $1.500–$2.500 en hardware, que se amortiza respecto a los costes de nube solo después de 1.500–3.000 horas de uso.
Para equipos o individuos que usan modelos 70B menos de 5 horas por semana, el alquiler en la nube es tanto más barato como más fácil de mantener. El 70B local se justifica para casos de uso sensibles a la privacidad (sin datos saliendo de tu hardware) o inferencia sostenida de alta frecuencia donde los costes de nube se acumulan rápidamente. Para modelos más pequeños que caben en GPUs de consumo, consulta la guía de niveles de VRAM.
Para un desglose completo de estrategias de despliegue 70B, consulta cómo ejecutar modelos 70B con 24 GB de VRAM.