Key Takeaways
- RTX 4060 Ti 16GB vence para a maioria dos usuários: 16 GB para 14B Q8, US$ 420, 165 W
- RTX 3090 de segunda mão (24 GB) é a chave para modelos 30B por menos de US$ 500
- RX 7800 XT 16GB é a resposta AMD a ~US$ 370 com suporte ROCm do Ollama
- Intel Arc B580 12GB é a opção econômica a US$ 280 — só modelos 7B
- RTX 4070 12GB é a mais rápida, mas a VRAM a limita a 13B Q4
- Todas as GPUs desta lista funcionam com Ollama, LM Studio e llama.cpp de fábrica
Melhores GPUs para inferência de LLM por menos de US$ 500 — Classificadas
A RTX 4060 Ti 16GB é a melhor GPU por menos de US$ 500 para inferência de LLM local porque seus 16 GB de VRAM acomodam modelos 14B em qualidade Q8 completa sem pressão de memória.
A VRAM da GPU determina quais modelos de IA você consegue rodar. Uma GPU de 16 GB roda modelos 14B em alta qualidade. Uma GPU de 24 GB (como uma RTX 3090 de segunda mão) roda modelos de 30B ou mais. Com menos de 12 GB você fica limitado a modelos 7B ou menores.
Comparação de desempenho — Resultados de testes 2026
Benchmarks medidos com Ollama 0.6.x, servidor llama.cpp, modelos do HuggingFace. Sistema de teste: Ryzen 9 7950X, 64 GB DDR5, SSD NVMe.
| GPU | VRAM | Preço (maio 2026) | Llama 3.3 8B Q4 tok/s | Qwen3 14B Q8 tok/s | Modelo máximo (Q4) |
|---|---|---|---|---|---|
| RTX 4060 Ti 16GB | 16 GB | ~US$ 420 | 55 tok/s | 22 tok/s | 30B (Q4) |
| RTX 3090 (segunda mão) | 24 GB | ~US$ 440 | 72 tok/s | 38 tok/s | 70B (Q4, offload parcial) |
| RX 7800 XT 16GB | 16 GB | ~US$ 375 | 43 tok/s | 18 tok/s | 30B (Q4) |
| RTX 4070 12GB | 12 GB | ~US$ 400 | 78 tok/s | Limitado pela VRAM | 13B (Q4) |
| Intel Arc B580 12GB | 12 GB | ~US$ 280 | 31 tok/s | Limitado pela VRAM | 13B (Q4) |
Como selecionamos e testamos estas GPUs
Critérios de seleção: disponíveis para compra nova ou de segunda mão por menos de US$ 500 em maio 2026; compatíveis com pelo menos um runtime de inferência principal (Ollama, LM Studio, llama.cpp); VRAM ≥ 12 GB (placas de 8 GB excluídas — insuficientes para uso local de LLM significativo). Todos os benchmarks são tok/s (tokens por segundo) de velocidade de geração, com média de 10 execuções a batch size 1, medidos com Ollama 0.6.x no Ubuntu 22.04 LTS. Preços de GPUs de segunda mão obtidos de anúncios vendidos no eBay (média dos últimos 30 dias). Preços de GPUs novas da Amazon.com (verificados em maio 2026).
Requisitos de VRAM por tamanho de modelo
Requisitos de VRAM: o modelo 7B precisa de ~4–5 GB (Q4) ou ~7–8 GB (Q8); o modelo 14B precisa de ~8–9 GB (Q4) ou ~14–15 GB (Q8); o modelo 30B precisa de ~18–20 GB (Q4); o modelo 70B precisa de ~40–42 GB (Q4).
Pense na VRAM como a RAM para os modelos de IA. O modelo precisa caber inteiramente na VRAM para uma inferência rápida. Se transbordar para a RAM do sistema (chamado de "offloading"), a velocidade cai 80–95%. A quantização Q4 reduz o tamanho pela metade em relação ao Q8 com um pequeno custo em qualidade.
- Modelo 7B em Q4: ~4,5 GB de VRAM — qualquer GPU desta lista dá conta facilmente
- Modelo 7B em Q8: ~7,5 GB de VRAM — cabe em todas as GPUs aqui
- Modelo 13B em Q4: ~8,5 GB de VRAM — cabe em todas as GPUs desta lista
- Modelo 14B em Q8: ~14 GB de VRAM — só RTX 4060 Ti 16GB e RTX 3090 (segunda mão)
- Modelo 30B em Q4: ~18 GB de VRAM — só a RTX 3090 (24 GB) dá conta confortavelmente
- Modelo 70B em Q4: ~40 GB — exige duas GPUs ou offload para CPU
Qual GPU você deve comprar?
Use este guia de decisão conforme seu caso de uso principal:
- Rodar modelos 7B rápido com orçamento apertado → Intel Arc B580 12GB (~US$ 280). Máximo de tokens por dólar.
- A melhor opção geral por menos de US$ 500 → RTX 4060 Ti 16GB (~US$ 420). Cobre 7B–14B Q8 com margem para crescer.
- Rodar modelos 30B sem a nuvem → RTX 3090 de segunda mão (~US$ 440). A única GPU por menos de US$ 500 com 24 GB de VRAM.
- Velocidade máxima para 13B e menores → RTX 4070 12GB (~US$ 400). A geração de tokens mais rápida por menos de US$ 500.
- Linux + stack open-source (AMD) → RX 7800 XT 16GB (~US$ 375). Suporte ROCm completo, mesma VRAM da RTX 4060 Ti.
- Usuário de Windows, sem complicação → RTX 4060 Ti 16GB ou RTX 4070 12GB. NVIDIA CUDA tem o suporte mais amplo no Windows.
Compatibilidade de software por GPU
As cinco GPUs rodam Ollama e llama.cpp. As diferenças aparecem nas ferramentas avançadas:
| GPU | Ollama | LM Studio | vLLM | Text Gen WebUI | Fine-Tuning CUDA |
|---|---|---|---|---|---|
| RTX 4060 Ti 16GB | ✅ | ✅ | ✅ | ✅ | ✅ |
| RTX 3090 (segunda mão) | ✅ | ✅ | ✅ | ✅ | ✅ |
| RX 7800 XT 16GB | ✅ (Linux) | ✅ | ⚠️ parcial | ⚠️ parcial | ❌ |
| RTX 4070 12GB | ✅ | ✅ | ✅ | ✅ | ✅ |
| Intel Arc B580 12GB | ✅ (SYCL) | ⚠️ beta | ❌ | ⚠️ parcial | ❌ |
Consumo de energia e requisitos do sistema
O consumo da GPU determina qual fonte de alimentação e gabinete você precisa. Rodar LLMs mantém as GPUs a 80–100% de utilização continuamente — diferente de jogos, não há frames ociosos.
- RTX 4060 Ti 16GB: 165 W — funciona com fonte de 550 W ou mais; um conector de 8 pinos
- RTX 3090 (segunda mão): 350 W — exige fonte de 750 W ou mais; 3× 8 pinos ou adaptador de 16 pinos; ventilação adequada obrigatória
- RX 7800 XT 16GB: 190 W — fonte de 650 W ou mais; duplo 8 pinos padrão
- RTX 4070 12GB: 200 W — fonte de 650 W ou mais; conector de 16 pinos (adaptador incluído)
- Intel Arc B580 12GB: 190 W — fonte de 650 W ou mais; 8 pinos padrão
8 GB de VRAM são suficientes para rodar LLMs localmente?
8 GB de VRAM limitam você a modelos 7B em quantização Q4 — o modelo mal cabe. Você não consegue rodar modelos 13B em qualidade completa, e os modelos 14B serão parcialmente descarregados para a RAM do sistema, reduzindo a velocidade em 80–95%. Para um uso local de LLM significativo em 2026, 12 GB é o mínimo prático; 16 GB é o recomendado.
Devo comprar uma RTX 3090 de segunda mão ou uma RTX 4060 Ti 16GB nova?
Depende de quais modelos você quer rodar. A RTX 3090 (segunda mão, 24 GB) dá conta de modelos 30B e maiores que a 4060 Ti não consegue. A RTX 4060 Ti 16GB (nova) é mais eficiente em energia (165 W vs 350 W), tem melhor suporte de drivers e garantia. Se modelos 14B são o seu teto, compre a 4060 Ti 16GB nova. Se você quer capacidade para 30B, compre uma 3090 de segunda mão de um vendedor confiável.
A AMD funciona para rodar LLMs localmente?
Sim, com ressalvas. O Ollama no Linux com ROCm funciona bem para a RX 7800 XT. O suporte a ROCm no Windows melhorou, mas ainda exige passos manuais. O fine-tuning (LoRA) em hardware AMD não é suportado pela maioria das ferramentas. Para cargas de trabalho apenas de inferência no Linux, a RX 7800 XT 16GB é uma alternativa genuína à NVIDIA. Para Windows ou fine-tuning, fique com a NVIDIA.
E as GPUs Intel Arc para IA?
A Intel Arc B580 12GB é a melhor opção Arc em 2026. Roda o Ollama no Windows e no Linux pelo backend SYCL, embora o desempenho fique 30–40% abaixo da NVIDIA em tok/s brutos. A relação custo-benefício é forte: 12 GB de VRAM a US$ 280 sem problemas de drivers em sistemas modernos. A principal limitação é o software: vLLM, ferramentas de fine-tuning e runtimes multimodais ainda não suportam bem a Arc.
Posso rodar um modelo 70B em uma única GPU por menos de US$ 500?
Não em velocidade plena. Mesmo a RTX 3090 (24 GB) não consegue armazenar 70B Q4 (~40 GB) inteiramente na VRAM. Você pode usar offload para CPU com o llama.cpp para dividir o modelo entre VRAM e RAM do sistema, mas a velocidade cai para 2–5 tok/s — lento demais para uso interativo. Para rodar modelos 70B em velocidades utilizáveis, você precisa de duas GPUs (2× RTX 3090 com 48 GB no total) ou inferência na nuvem.
As novas placas (RTX 5060 Ti) vão tornar essas GPUs obsoletas?
As placas intermediárias RTX 50 da NVIDIA (5060 Ti) não estavam amplamente disponíveis no momento em que este artigo foi escrito (maio 2026). Quando saírem, provavelmente oferecerão VRAM semelhante em um pacote mais eficiente em energia. A RTX 4060 Ti 16GB e a RTX 3090 continuam sendo excelentes compras pelo custo-benefício hoje. Consulte a data de atualização deste artigo para recomendações atualizadas.