Key Takeaways
- Mejor relación precio-rendimiento (2026): RTX 4070 Ti ($600, maneja modelos de 7-13B).
- Mejor sin límite de presupuesto: RTX 5090 o RTX 4090 ($1800-2000, cualquier modelo en una sola GPU).
- Mejor opción equilibrada: RTX 4080 ($1200, maneja cualquier modelo con cuantización Q5).
- Mejor para modelos de 70B: 2× RTX 4090 ($3600) o RTX 6000 Ada ($5000).
- En abril de 2026, NVIDIA domina. AMD e Intel quedan significativamente por detrás.
Comparativa de GPUs por precio y rendimiento
| Nivel | GPU | VRAM | Velocidad (7B) | Precio |
|---|---|---|---|---|
| Presupuesto | RTX 4070 Ti | 12 GB | 80 tok/seg | $600-700 |
| Presupuesto medio | RTX 5070 | 12 GB | 85 tok/seg | $550 |
| Medio | RTX 4080 | 16 GB | 120 tok/seg | $1200 |
| Premium | RTX 4090 | 24 GB | 150 tok/seg | $1800 |
| Premium | RTX 5090 | 32 GB | 160 tok/seg | $1999 |
Gama de presupuesto ($400-700)
RTX 4070 Ti (recomendada): $600, 12 GB VRAM, 80 tok/seg. Mejor relación precio-rendimiento para uso personal.
RTX 5070 (nueva, principios de 2026): $550, 12 GB. Ligera mejora de velocidad respecto a la RTX 4070 Ti.
RTX 4070 (anterior): $400, 12 GB. Algo más lenta, no recomendada para nuevas builds.
Gama media ($800-1500)
RTX 4080 ($1200): 16 GB VRAM, 120 tok/seg. Ideal para cualquier modelo de 7-13B.
RTX 5080 (nueva, principios de 2026): $1199, 16 GB. ~15% más rápida que la RTX 4080.
RTX 4080 Super: Prácticamente igual a la RTX 4080, mismo precio.
Gama alta ($1600+)
RTX 4090 ($1800): 24 GB VRAM, 150 tok/seg. GPU de consumo más rápida. Puede ejecutar cualquier modelo en una sola GPU.
RTX 5090 ($1999): 32 GB VRAM, 160 tok/seg. Último flagship. Ganancia de velocidad marginal respecto a la RTX 4090.
RTX 6000 Ada ($5000): GPU de servidor, 48 GB. Para despliegues en producción.
GPUs AMD e Intel: estado en abril de 2026
AMD (ROCm): Mejorando, pero sigue por detrás de NVIDIA. La RX 7900 XTX compite en precio con la RTX 4080, pero el soporte de drivers ROCm es menos estable. No recomendada salvo que prefieras el ecosistema AMD.
Intel Arc A770: Demasiado lenta para uso práctico con LLMs. No recomendada.
Recomendación: Quédate con NVIDIA por estabilidad y madurez del ecosistema.
Comparativa histórica: cómo ha crecido el rendimiento de las GPUs
Contexto: qué tan rápido ha avanzado el rendimiento de las GPUs:
| GPU | VRAM | Velocidad (7B) | Precio |
|---|---|---|---|
| RTX 2080 (2019) | 8 GB | 10 tok/seg | $700 |
| RTX 3090 (2020) | 24 GB | 25 tok/seg | $1500 |
| RTX 4070 (2022) | 12 GB | 60 tok/seg | $600 |
| RTX 4090 (2022) | 24 GB | 150 tok/seg | $1800 |
| RTX 5090 (2026) | 32 GB | 160 tok/seg | $2000 |
Errores comunes al elegir una GPU
- Comprar una RTX 3090 en 2026. Vieja y más lenta. No vale la pena a ningún precio. Compra solo la generación actual (serie 40/50).
- Asumir que más VRAM = más velocidad. El tamaño de la VRAM no afecta la velocidad. La RTX 4080 (16 GB) es más rápida que la RTX 3090 (24 GB).
- Creer que necesitas una RTX 6000 para uso personal. Es un exceso enorme. La RTX 4090 maneja cualquier modelo personal con facilidad.
- Comprar pensando en el futuro más allá de 2 años. La tecnología GPU evoluciona rápido. Compra para tus necesidades actuales y actualiza en 2 años.
Preguntas frecuentes
¿Cuánta VRAM necesito para LLMs locales?
12 GB de VRAM maneja modelos de 7B y 13B cómodamente (cuantización Q5). 16 GB maneja hasta modelos de 20B. 24 GB (RTX 4090) ejecuta cualquier modelo en una sola GPU, incluido 34B en Q5. Para modelos de 70B necesitas 2× 24 GB de GPUs o cuantización agresiva a Q2–Q3 con pérdida severa de calidad.
¿Vale la pena la RTX 4090 para LLMs locales?
Sí, si ejecutas regularmente modelos de 13B–34B o necesitas la máxima velocidad de inferencia. A $1800, la RTX 4090 ofrece 24 GB de VRAM y 150 tok/seg en modelos de 7B. Si solo ejecutas modelos de 7B, la RTX 4070 Ti a $600 entrega 80 tok/seg — el 80% del rendimiento al 33% del costo.
¿Debería comprar una GPU AMD para LLMs locales?
No en 2026, a menos que prefieras específicamente el ecosistema AMD. La integración de NVIDIA con CUDA es más madura, y la mayoría de frameworks LLM (vLLM, llama.cpp, Ollama) están optimizados primero para CUDA. La RX 7900 XTX de AMD compite en precio pero tiene problemas de driver más frecuentes y soporte de frameworks inconsistente.
¿Cuál es la mejor GPU para ejecutar modelos de 70B localmente?
Dos GPUs RTX 4090 ($3600 en total, 48 GB de VRAM combinada) es la mejor opción para consumidores. Esto ejecuta Llama 3.1 70B en cuantización Q5 a ~100 tok/seg. Una sola RTX 6000 Ada ($5000, 48 GB) es la alternativa profesional. Evita intentar ejecutar 70B en una sola GPU de consumo — la cuantización Q2 necesaria degrada la calidad severamente.
¿Cómo afecta el tamaño de la VRAM al rendimiento de LLMs locales?
El tamaño de la VRAM determina qué tamaños de modelos puedes ejecutar — más VRAM = modelos más grandes. El tamaño de la VRAM no afecta directamente la velocidad de inferencia para modelos que caben en ella. Una RTX 4080 (16 GB, 120 tok/seg) es más rápida que una RTX 3090 (24 GB, 25 tok/seg) a pesar de tener menos VRAM, porque el ancho de banda de memoria y la arquitectura de cómputo importan más.
¿Necesito una GPU de nueva generación para LLMs locales?
Sí — compra una RTX serie 40 o más nueva (serie 50 en 2026). La serie RTX 30 (3090, 3080) es significativamente más lenta: una 3090 alcanza 25 tok/seg frente a 150 tok/seg en una 4090 al mismo precio hoy. La RTX 2080 (8 GB) es impráctica para cualquier cosa más allá de modelos de 3B. Solo se recomienda hardware de generación actual para nuevas builds.
Fuentes
- Especificaciones de GPU NVIDIA -- nvidia.com/en-us/geforce
- Base de datos de GPUs TechPowerUp -- techpowerup.com/gpu-specs
- Benchmarks de rendimiento LLM -- github.com/vllm-project/vllm/tree/main/benchmarks