Key Takeaways
- A AMD RX 6800 XT (16GB, ~US$ 300-350 de segunda mão) e a RX 7900 XTX (24GB, ~US$ 400-500 de segunda mão) são as únicas opções viáveis para LLMs locais. Os preços variam conforme o país (no Brasil, bem mais altos por causa dos impostos).
- Desempenho por dólar: a AMD é 20-30% mais barata que a NVIDIA, mas a fricção de software custa entre 5 e 10 horas de configuração.
- Ollama: suporte AMD limitado (o caminho do ROCm é instável, o fallback para CPU é lento). Não recomendado.
- vLLM: suporte completo para AMD ROCm desde a v0.6.0, mas a configuração exige instalar drivers manualmente. Funciona bem depois de superada a fase de instalação.
- Text Generation WebUI: excelente suporte para AMD via ROCm. A melhor experiência de usuário em AMD.
- Llama.cpp: suporte nativo para AMD (backend HIP). Desempenho sólido. O caminho recomendado em AMD.
- Custo de configuração: planeje 5-10 horas de depuração de drivers ROCm, compilação do HIPCC e compatibilidade de kernel.
- Veredito (abril 2026): use AMD só se já tiver hardware AMD ou encontrar uma oferta de segunda mão excelente (~US$ 300 por uma placa de 16GB). Caso contrário, o NVIDIA CUDA continua mais simples.
Quais GPUs AMD realmente valem a pena?
- RX 6800 XT (16GB GDDR6): a rainha do custo-benefício na AMD. Lançada em 2020. Continua sólida para inferência de 7B-22B. De segunda mão: ~US$ 300-350.
- RX 6900 XT (16GB GDDR6): marginalmente mais rápida que a 6800 XT. Rara. De segunda mão: ~US$ 350-400. O aumento de preço não vale a pena.
- RX 7900 XT (20GB GDDR6): arquitetura RDNA 3 mais nova. 20% mais rápida que a 6800 XT. De segunda mão: ~US$ 400-480. Boa para 70B Q4.
- RX 7900 XTX (24GB GDDR6): a GPU AMD de consumo de topo. 24GB de VRAM é um divisor de águas para modelos de 70B. De segunda mão: ~US$ 450-550. Velocidade comparável à RTX 4090.
- Radeon Pro W6800 (32GB): placa de nível empresarial, mais barata de segunda mão (~US$ 200-300). Mais lenta, mas os 32GB são excelentes para 70B Q8. Opção de nicho.
Como as GPUs AMD se comparam às RTX em preço e desempenho?
| GPU | VRAM | TFLOPS | Preço (2ª mão) | Desemp./$ vs. RTX | RTX equivalente |
|---|---|---|---|---|---|
| RX 6800 XT | 16GB | 1.952 | ~US$ 300-350 | +25% | RTX 3080 (mais lenta) |
| RX 7900 XT | 20GB | 2.540 | ~US$ 400-480 | +20% | RTX 4080 (similar) |
| RX 7900 XTX | 24GB | 2.750 | ~US$ 450-550 | +15% | RTX 4090 (velocidade similar) |
| RTX 3080 | 10GB | 1.456 | ~US$ 350-400 | -- | -- |
| RTX 4090 | 24GB | 2.752 | ~US$ 1.000-1.300 | -- | -- |
Qual é a fricção de configuração do ROCm para AMD?
1. Instale os drivers AMD ROCm: `apt-get install rocm-dkms` (Ubuntu). No Windows, use o instalador .exe manual. Leva cerca de 30 min.
2. Verifique o compilador HIP: `hipcc --version`. Muitas vezes falha na primeira tentativa. Depure a compatibilidade de kernel da sua GPU.
3. Instale o HIPCC (o compilador HIP-to-C++ da AMD): `apt-get install hip-runtime-amd`. Outra cadeia de dependências.
4. Teste com um LLM pequeno: rode a inferência para verificar se a aceleração por GPU funciona. O fallback para CPU é frequente.
5. Resolva incompatibilidades de versão de drivers: o ROCm v5.7 funciona com o kernel 5.15, mas não com o 6.x. Consome 2-4 horas de depuração.
NVIDIA CUDA em comparação: `nvidia-cuda-toolkit` → um apt-get, acesso instantâneo à GPU. A AMD exige de 5 a 10 vezes mais fricção.
Você pode rodar Ollama e vLLM em AMD?
Ollama em AMD: experimental e instável a partir de abril de 2026. O caminho do ROCm às vezes funciona, o fallback para CPU é lento. Não recomendado.
vLLM em AMD: suporte completo ao ROCm desde a v0.6.0. Funciona bem, mas exige configuração manual de drivers ROCm/HIP. Boa opção se você superar a fase de instalação.
Text Generation WebUI: excelente suporte ao AMD ROCm. A melhor experiência de usuário em AMD. Recomendado.
Llama.cpp: backend HIP nativo. Desempenho sólido. O caminho AMD mais simples. Recomendado.
LM Studio: só NVIDIA. Sem suporte para AMD.
A partir de abril de 2026: vLLM + llama.cpp são suas opções em AMD. O Ollama não é confiável.
Quando você deve comprar AMD em vez de NVIDIA?
Compre AMD se:
- Você encontrar uma RX 7900 XTX de segunda mão por menos de US$ 450 (subvalorizada frente ao valor da RTX 4090).
- Você já tem hardware AMD e quer manter coerência no ecossistema.
- Você está montando um cluster e prioriza o desempenho por dólar em vez da facilidade de configuração.
Não compre AMD se:
- Você quer uma experiência plug-and-play. O NVIDIA CUDA é mais rápido de colocar para funcionar.
- Você precisa do Ollama. O suporte AMD é pouco confiável.
- Você tem pouco tempo. A depuração do ROCm pode consumir mais de 10 horas.
Erros comuns ao adotar AMD
- Comprar uma RX 6700 (12GB) achando que equivale a uma 3060 12GB — ela é 20% mais lenta e muitas vezes difícil de achar de segunda mão.
- Supor que o ROCm "simplesmente funciona" como o CUDA — planeje de 5 a 10 horas de solução de problemas de compatibilidade de drivers e kernel.
- Usar o Ollama com AMD esperando uma integração fluida — o caminho do ROCm é instável; llama.cpp ou vLLM são melhores opções.
Perguntas frequentes
Devo comprar a AMD RX 6800 XT ou a NVIDIA RTX 3080 para LLMs locais?
RTX 3080 se você valoriza a simplicidade (o CUDA funciona sem problemas). RX 6800 XT se você quer 25% mais valor e não se importa com 5-10 horas de configuração do ROCm.
A AMD RX 7900 XTX é melhor que a RTX 4090?
Velocidade semelhante, mesma VRAM (24GB). A RX 7900 XTX é US$ 200-300 mais barata de segunda mão (US$ 450-550 vs. US$ 1.000-1.300). A configuração do ROCm é o contrapeso.
Posso usar GPUs AMD com o Ollama?
Tecnicamente sim, mas espere comportamentos instáveis. O fallback para CPU é frequente. Use vLLM ou llama.cpp no lugar para AMD.
Qual é o melhor caminho AMD para LLMs locais em 2026?
Llama.cpp (backend HIP) + Text Generation WebUI. Ambos têm bom suporte para AMD. Evite o Ollama.
Preciso de Ubuntu para o AMD ROCm, ou o Windows também funciona?
O suporte no Windows existe (HIP no Windows), mas é mais recente e menos estável. O Ubuntu é o caminho recomendado.
A RX 6700 ou 6750 é boa para modelos de 7B?
A RX 6700 (12GB) funciona, mas é 20% mais lenta que a RX 6800 XT. Compre-a só se custar menos de US$ 250. Caso contrário, vá de 6800 XT.
Posso combinar GPUs AMD e NVIDIA no mesmo sistema?
Teoricamente sim, mas o gerenciamento é um pesadelo. Cada GPU precisa do seu próprio runtime CUDA/HIP. Não é recomendado.
Leituras relacionadas
- Melhores GPUs econômicas para LLMs locais
- Melhores GPUs para LLMs locais
- GPU vs CPU vs Apple Silicon
- Text Generation WebUI vs vLLM vs Llama.cpp
- Notebook vs Desktop para LLMs locais — Comparação de custo e desempenho entre notebook e desktop para IA.
Fontes
- Documentação do AMD ROCm e GitHub: compilador HIP, matriz de compatibilidade de drivers, exemplos de inferência com LLMs
- vLLM GitHub: implementação do backend AMD/ROCm e estado do suporte (v0.6.0+)
- Llama.cpp GitHub: backend HIP para suporte a GPUs AMD
- As GPUs AMD oferecem boas velocidades em tokens por segundo, mas a velocidade sozinha não determina a qualidade das respostas. O que você pergunta ao modelo importa tanto quanto a rapidez da resposta: context windows explained explica como estruturar solicitações mais longas dentro dos limites de memória da GPU.