Key Takeaways
- A RTX 5090 é ~20-25% mais rápida que a RTX 4090 para inferência de LLM local (medida em tokens/seg).
- Ambas as placas têm 24 GB de VRAM — idêntico para trabalho com LLMs. A vantagem de velocidade da 5090 vem da maior largura de banda de memória e da melhor eficiência de shaders.
- A RTX 5090 custa cerca de R$ 9.000 a mais (~R$ 20.000 vs. ~R$ 11.000 por uma 4090 usada). O ganho de desempenho por preço não justifica o upgrade se você já tem uma 4090.
- Para modelos 7B-13B: a 4090 é exagero. Você atingirá limites de CPU ou refrigeração antes de saturar a GPU.
- Para modelos 70B: a 5090 se destaca. Pode rodar 2-3 modelos 70B menores em paralelo ou um único 70B com lotes maiores.
- A RTX 5080 (~R$ 10.000) costuma oferecer melhor custo-benefício que a 5090 para LLMs locais, a menos que você precise de configurações com GPU dupla.
Quais são as diferenças reais de velocidade?
RTX 5090: 14.080 núcleos CUDA, 568 TFLOPS, ~1.500 GB/seg de largura de banda de memória.
RTX 4090: 16.384 núcleos CUDA, 410 TFLOPS, ~936 GB/seg de largura de banda de memória.
Inferência de LLM no mundo real (Llama 3 70B, Q4, batch=1): a RTX 5090 atinge ~45 tokens/seg, a RTX 4090 atinge ~36 tokens/seg. 25% mais rápida.
Para modelos 7B (limitados por memória, não por processamento): a RTX 5090 atinge ~80 tokens/seg, a RTX 4090 ~75 tokens/seg. Apenas 6,5% mais rápida. A vantagem quase desaparece.
A VRAM faz diferença entre a 4090 e a 5090?
Ambas têm 24 GB GDDR7 (5090) / GDDR6X (4090). Capacidade de VRAM idêntica. Sem vantagem.
O GDDR7 da 5090 é mais rápido por byte. Isso contribui para os 20-25% de vantagem em velocidade. Mas para as cargas de trabalho de LLM que executamos, o GDDR6X (4090) é suficiente.
Custo por token: qual é realmente mais barata?
- RTX 4090 usada: ~R$ 10.000-13.000. Atinge 36 tokens/seg no Llama 70B. Custo por token (amortizado): ~R$ 270-360 por milhão de tokens.
- RTX 5090 nova: ~R$ 20.000. Atinge 45 tokens/seg no Llama 70B. Custo por token (amortizado): ~R$ 440 por milhão de tokens.
- Veredito: a 4090 é mais barata por token gerado, não porque seja mais rápida, mas porque é mais barata de comprar.
Quando você deve realmente fazer upgrade da 4090 para a 5090?
Nunca faça upgrade para inferência de 7B-13B. A 4090 é exagero para esses modelos. De qualquer forma você ficará limitado por CPU ou refrigeração.
Faça upgrade se: você roda inferência 70B com GPU dupla (2× 4090 = ~R$ 22.000 vs. 2× 5090 = ~R$ 40.000), precisa de 45+ tokens/seg em modelos 70B, ou tem gargalo de largura de banda de memória em cargas de trabalho multi-batch.
Melhor alternativa: adicione uma segunda RTX 4090 por ~R$ 11.000 em vez de migrar para a 5090. Duas 4090 em paralelo dão ~72 tokens/seg (não 90, mas perto o suficiente por um custo bem menor).
Suposições comuns sobre a 5090
- Achar que a 5090 é 2× mais rápida que a 4090 — ela é apenas 20-25% mais rápida, e ainda menos para modelos 7B.
- Supor que existe diferença de VRAM — ambas têm 24 GB. Mesma capacidade, desempenho semelhante para LLMs.
- Acreditar que você precisa da 5090 para rodar modelos 70B — a 4090 os roda bem a 36 tokens/seg, o que é "suficiente" para a maioria dos usuários.
Perguntas frequentes
Vale a pena a RTX 5090 para rodar o Llama 3 70B?
Só se você precisar de 45+ tokens/seg. A 4090 entrega 36, o que é "suficiente" para a maioria. Os 9 tokens/seg extras custam cerca de R$ 9.000.
Devo comprar uma RTX 5090 ou duas RTX 4090?
Duas 4090 (~R$ 22.000 usadas) superam a 5090 (~R$ 20.000) em velocidade e flexibilidade. Você pode rodar vários modelos em paralelo. A 5090 tem configuração mais simples, mas é mais cara.
A RTX 5090 tem mais VRAM que a 4090?
Não. Ambas têm 24 GB. O GDDR7 é mais rápido por byte, mas para LLMs o GDDR6X (4090) é suficiente.
Os preços da 5090 vão cair como os da 4090?
Sim, com o tempo. A 4090 chegou a custar ~R$ 13.000 no lançamento e agora vale ~R$ 11.000 usada (2026). Espere a 5090 chegar a ~R$ 12.000-15.000 usada em 2-3 anos.
Posso usar a RTX 5090 com uma fonte de 750 W?
Por pouco. A RTX 5090 consome 575 W sozinha. Combine com uma fonte de 850 W ou 1000 W para evitar queda de tensão sob carga.
A RTX 5080 tem melhor custo-benefício que a 5090?
Sim, para a maioria. A 5080 (~R$ 10.000) atinge 80% da velocidade da 5090 pela metade do preço. Para LLMs locais, a 5080 é o ponto ideal.
Quanto mais rápida é a 5090 em modelos multimodais como o Qwen-VL 70B?
Um ganho semelhante de 20-25%. O processamento multimodal ainda é limitado por memória, então a vantagem de largura de banda da 5090 ajuda, mas não de forma dramática.
Fontes
- Especificações oficiais da NVIDIA RTX 5090 e 4090: núcleos CUDA, TFLOPS, largura de banda de memória
- MLCommons MLPerf Inference Benchmark: velocidade de geração de tokens em LLaMA 70B e modelos Mistral
- Banco de dados de GPUs da TechPowerUp: comparação de consumo de energia e largura de banda de memória RTX 5090 vs. 4090