Home/Local LLMs/RTX 5090 vs RTX 4090 para Inferencia LLM Local

GPU Buying Guides

RTX 5090 vs RTX 4090 para Inferencia LLM Local

Last updated: April 2026·6 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es

Para LLMs locales, la RTX 5090 es un 20-25% más rápida que la RTX 4090, pero cuesta $1.000 más. En abril de 2026, la elección depende de si ejecutas modelos de 70B (la 5090 gana) o modelos de 7B-13B (la 4090 ya es excesiva).

Para LLMs locales, la RTX 5090 es un 20-25% más rápida que la RTX 4090, pero cuesta $1.000 más. En abril de 2026, la elección depende de si ejecutas modelos de 70B (la 5090 gana) o modelos de 7B-13B (la 4090 ya es excesiva). Si ya tienes una 4090, actualizar no es rentable. Si compras nueva, la RTX 5080 ofrece mejor relación rendimiento-precio.

Key Takeaways

La RTX 5090 es ~20-25% más rápida que la RTX 4090 para inferencia LLM local (medida en tokens/seg).
Ambas tarjetas tienen 24 GB de VRAM — idéntico para trabajo con LLMs. La ventaja de velocidad de la 5090 proviene de mayor ancho de banda de memoria y mejor eficiencia de shaders.
La RTX 5090 cuesta $1.000 más ($1.999 vs. $999 por una 4090 usada). La ganancia en rendimiento por precio no justifica actualizar si ya tienes una 4090.
Para modelos de 7B-13B: la 4090 es excesiva. Alcanzarás límites de CPU o refrigeración antes de maximizar la GPU.
Para modelos de 70B: la 5090 destaca. Puede ejecutar 2-3 modelos de 70B en paralelo o un único 70B con tamaños de lote mayores.
La RTX 5080 ($999) suele ofrecer mejor valor que la 5090 para LLMs locales, salvo que necesites configuraciones de GPU dual.

¿Cuáles son las diferencias reales de velocidad?

RTX 5090: 14.080 núcleos CUDA, 568 TFLOPS, ~1.500 GB/seg de ancho de banda de memoria.

RTX 4090: 16.384 núcleos CUDA, 410 TFLOPS, ~936 GB/seg de ancho de banda de memoria.

Inferencia LLM en el mundo real (Llama 3 70B, Q4, batch=1): la RTX 5090 alcanza ~45 tokens/seg, la RTX 4090 alcanza ~36 tokens/seg. 25% más rápida.

Para modelos de 7B (limitados por memoria, no por cómputo): la RTX 5090 alcanza ~80 tokens/seg, la RTX 4090 ~75 tokens/seg. Solo un 6,5% más rápida. La ventaja casi desaparece.

¿Importa la VRAM entre la 4090 y la 5090?

Ambas tienen 24 GB GDDR7 (5090) / GDDR6X (4090). Capacidad de VRAM idéntica. Sin ventaja.

El GDDR7 de la 5090 es más rápido por byte. Esto contribuye al 20-25% de ventaja en velocidad. Pero para las cargas de trabajo LLM que ejecutamos, el GDDR6X (4090) es suficiente.

Coste por token: ¿cuál es realmente más barata?

RTX 4090 usada: ~$999-1.299. Alcanza 36 tokens/seg en Llama 70B. Coste por token: $27-36 por millón de tokens.
RTX 5090 nueva: $1.999. Alcanza 45 tokens/seg en Llama 70B. Coste por token: $44 por millón de tokens.
Veredicto: la 4090 es más barata por token generado, no porque sea más rápida, sino porque es más barata de comprar.

¿Cuándo deberías actualizar realmente de la 4090 a la 5090?

Nunca actualices para inferencia de 7B-13B. La 4090 es excesiva para esos modelos. De todos modos estarás limitado por CPU o refrigeración.

Actualiza si: ejecutas inferencia de 70B con GPU dual (2× 4090 = $2.500 vs. 2× 5090 = $4.000), necesitas 45+ tokens/seg en modelos de 70B, o tienes un cuello de botella de ancho de banda de memoria en cargas de trabajo multi-batch.

Mejor alternativa: añade una segunda RTX 4090 por $1.200 en vez de pasarte a la 5090. Dos 4090 en paralelo te dan ~72 tokens/seg (no 90, pero suficientemente cerca a la mitad del coste).

Suposiciones comunes sobre la 5090

Creer que la 5090 es 2× más rápida que la 4090 — solo es un 20-25% más rápida, e incluso menos para modelos de 7B.
Asumir que existe diferencia de VRAM — ambas tienen 24 GB. Misma capacidad, rendimiento similar para LLMs.
Creer que necesitas la 5090 para ejecutar modelos de 70B — la 4090 los ejecuta bien a 36 tokens/seg, lo cual es "suficiente" para la mayoría de los usuarios.

Preguntas frecuentes

¿Vale la pena la RTX 5090 para ejecutar Llama 3 70B?

Solo si necesitas 45+ tokens/seg. La 4090 te da 36, que es "suficiente" para la mayoría. Los 9 tokens/seg extra cuestan $1.000.

¿Debo comprar una RTX 5090 o dos RTX 4090?

Dos 4090 (~$2.500 usadas) superan a la 5090 ($1.999) en velocidad y flexibilidad. Puedes ejecutar varios modelos en paralelo. La 5090 tiene una configuración más sencilla, pero es más cara.

¿La RTX 5090 tiene más VRAM que la 4090?

No. Ambas tienen 24 GB. El GDDR7 es más rápido por byte, pero para LLMs el GDDR6X (4090) es suficiente.

¿Bajarán los precios de la 5090 como lo hizo la 4090?

Sí, eventualmente. La 4090 costaba $1.499 en su lanzamiento (2022) y ahora vale $999 usada (2026). Espera que la 5090 llegue a $1.200-1.500 usada en 2-3 años.

¿Puedo usar la RTX 5090 con una fuente de alimentación de 750 W?

Con dificultades. La RTX 5090 consume 575 W por sí sola. Usa una fuente de 850 W o 1000 W para evitar caídas de tensión bajo carga.

¿La RTX 5080 ofrece mejor valor que la 5090?

Sí, para la mayoría. La 5080 ($999) alcanza el 80% de la velocidad de la 5090 a la mitad del precio. Para LLMs locales, la 5080 es el punto óptimo.

¿Cuánto más rápida es la 5090 en modelos multimodales como Qwen-VL 70B?

Una mejora similar del 20-25%. El cómputo multimodal sigue siendo limitado por la memoria, por lo que la ventaja de ancho de banda de la 5090 ayuda, pero no de forma dramática.

Fuentes

Especificaciones oficiales de NVIDIA RTX 5090 y 4090: núcleos CUDA, TFLOPS, ancho de banda de memoria
MLCommons MLPerf Inference Benchmark: velocidad de generación de tokens en LLaMA 70B y modelos Mistral
Base de datos de GPU de TechPowerUp: comparativa de consumo energético y ancho de banda de memoria RTX 5090 vs. 4090

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs