Início/LLMs locais/Melhores GPUs AMD para LLMs locais

GPU Buying Guides

Melhores GPUs AMD para LLMs locais

Last updated: 5 de abril de 2026·7 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

A AMD RX 6800 XT e a RX 7900 XTX são alternativas sólidas à NVIDIA, com desempenho por dólar 15-20% melhor, mas sofrem com a menor compatibilidade com o ONNX Runtime e os drivers do vLLM. No varejo brasileiro, com impostos de importação, os preços em reais ficam bem mais altos.

A AMD RX 6800 XT e a RX 7900 XTX são alternativas sólidas à NVIDIA, com desempenho por dólar 15-20% melhor, mas sofrem com a menor compatibilidade com o ONNX Runtime e os drivers do vLLM. A partir de abril de 2026, o AMD ROCm (HIP) amadureceu, embora as camadas de compatibilidade adicionem fricção. O NVIDIA CUDA continua sendo o caminho mais simples para LLMs locais. Use AMD só se encontrar uma ótima oferta de segunda mão ou já tiver hardware AMD.

Key Takeaways

A AMD RX 6800 XT (16GB, ~US$ 300-350 de segunda mão) e a RX 7900 XTX (24GB, ~US$ 400-500 de segunda mão) são as únicas opções viáveis para LLMs locais. Os preços variam conforme o país (no Brasil, bem mais altos por causa dos impostos).
Desempenho por dólar: a AMD é 20-30% mais barata que a NVIDIA, mas a fricção de software custa entre 5 e 10 horas de configuração.
Ollama: suporte AMD limitado (o caminho do ROCm foi inconsistente nos nossos testes de abril de 2026, Ollama v0.3.x / ROCm 6.x — a deteção de GPU falhou em algumas configurações; o fallback para CPU é lento). Verifique github.com/ollama/ollama para compatibilidade AMD atual.
vLLM: suporte completo para AMD ROCm desde a v0.6.0, mas a configuração exige instalar drivers manualmente. Funciona bem depois de superada a fase de instalação.
Text Generation WebUI: excelente suporte para AMD via ROCm. A melhor experiência de usuário em AMD.
Llama.cpp: suporte nativo para AMD (backend HIP). Desempenho sólido. O caminho recomendado em AMD.
Custo de configuração: planeje 5-10 horas de depuração de drivers ROCm, compilação do HIPCC e compatibilidade de kernel.
Veredito (abril 2026): use AMD só se já tiver hardware AMD ou encontrar uma oferta de segunda mão excelente (~US$ 300 por uma placa de 16GB). Caso contrário, o NVIDIA CUDA continua mais simples.

Quais GPUs AMD realmente valem a pena?

RX 6800 XT (16GB GDDR6): a rainha do custo-benefício na AMD. Lançada em 2020. Continua sólida para inferência de 7B-22B. De segunda mão: ~US$ 300-350.
RX 6900 XT (16GB GDDR6): marginalmente mais rápida que a 6800 XT. Rara. De segunda mão: ~US$ 350-400. O aumento de preço não vale a pena.
RX 7900 XT (20GB GDDR6): arquitetura RDNA 3 mais nova. 20% mais rápida que a 6800 XT. De segunda mão: ~US$ 400-480. Boa para 70B Q4.
RX 7900 XTX (24GB GDDR6): a GPU AMD de consumo de topo. 24GB de VRAM é um divisor de águas para modelos de 70B. De segunda mão: ~US$ 450-550. Velocidade comparável à RTX 4090.
Radeon Pro W6800 (32GB): placa de nível empresarial, mais barata de segunda mão (~US$ 200-300). Mais lenta, mas os 32GB são excelentes para 70B Q8. Opção de nicho.

Como as GPUs AMD se comparam às RTX em preço e desempenho?

GPU	VRAM	TFLOPS	Preço (2ª mão)	Desemp./$ vs. RTX	RTX equivalente
RX 6800 XT	16GB	1.952	~US$ 300-350	+25%	RTX 3080 (mais lenta)
RX 7900 XT	20GB	2.540	~US$ 400-480	+20%	RTX 4080 (similar)
RX 7900 XTX	24GB	2.750	~US$ 450-550	+15%	RTX 4090 (velocidade similar)
RTX 3080	10GB	1.456	~US$ 350-400	--	--
RTX 4090	24GB	2.752	~US$ 1.000-1.300	--	--

Qual é a fricção de configuração do ROCm para AMD?

1. Instale os drivers AMD ROCm: `apt-get install rocm-dkms` (Ubuntu). No Windows, use o instalador .exe manual. Leva cerca de 30 min.

2. Verifique o compilador HIP: `hipcc --version`. Muitas vezes falha na primeira tentativa. Depure a compatibilidade de kernel da sua GPU.

3. Instale o HIPCC (o compilador HIP-to-C++ da AMD): `apt-get install hip-runtime-amd`. Outra cadeia de dependências.

4. Teste com um LLM pequeno: rode a inferência para verificar se a aceleração por GPU funciona. O fallback para CPU é frequente.

5. Resolva incompatibilidades de versão de drivers: o ROCm v5.7 funciona com o kernel 5.15, mas não com o 6.x. Consome 2-4 horas de depuração.

NVIDIA CUDA em comparação: `nvidia-cuda-toolkit` → um apt-get, acesso instantâneo à GPU. A AMD exige de 5 a 10 vezes mais fricção.

Você pode rodar Ollama e vLLM em AMD?

Ollama em AMD (com base nos nossos testes de abril de 2026, Ollama v0.3.x, ROCm 6.x): o suporte ROCm foi inconsistente nos nossos testes — a deteção de GPU falhou em algumas configurações, o fallback para CPU é lento. Verifique a lista de compatibilidade AMD atual em github.com/ollama/ollama antes de decidir.

vLLM em AMD: suporte completo ao ROCm desde a v0.6.0. Funciona bem, mas exige configuração manual de drivers ROCm/HIP. Boa opção se você superar a fase de instalação.

Text Generation WebUI: excelente suporte ao AMD ROCm. A melhor experiência de usuário em AMD. Recomendado.

Llama.cpp: backend HIP nativo. Desempenho sólido. O caminho AMD mais simples. Recomendado.

LM Studio: só NVIDIA. Sem suporte para AMD.

A partir de abril de 2026: vLLM + llama.cpp são suas opções em AMD. O Ollama não é confiável.

Quando você deve comprar AMD em vez de NVIDIA?

Compre AMD se:

Você encontrar uma RX 7900 XTX de segunda mão por menos de US$ 450 (subvalorizada frente ao valor da RTX 4090).

Você já tem hardware AMD e quer manter coerência no ecossistema.

Você está montando um cluster e prioriza o desempenho por dólar em vez da facilidade de configuração.

Não compre AMD se:

Você quer uma experiência plug-and-play. O NVIDIA CUDA é mais rápido de colocar para funcionar.

Você precisa do Ollama. O suporte AMD é pouco confiável.

Você tem pouco tempo. A depuração do ROCm pode consumir mais de 10 horas.

Erros comuns ao adotar AMD

Comprar uma RX 6700 (12GB) achando que equivale a uma 3060 12GB — ela é 20% mais lenta e muitas vezes difícil de achar de segunda mão.
Supor que o ROCm "simplesmente funciona" como o CUDA — planeje de 5 a 10 horas de solução de problemas de compatibilidade de drivers e kernel.
Usar o Ollama com AMD esperando uma integração fluida — o suporte ROCm foi inconsistente nos nossos testes de abril de 2026 (Ollama v0.3.x, ROCm 6.x); llama.cpp ou vLLM são melhores opções.

Próximos passos

Melhores GPUs econômicas para LLMs locais — Com orçamento limitado? As melhores GPUs custo-benefício →
GPU vs CPU vs Apple Silicon — AMD, Apple ou CPU — qual plataforma se encaixa? →
Quanta VRAM eu preciso? — Encontre o equilíbrio entre VRAM e tamanho do modelo →

Perguntas frequentes

Devo comprar a AMD RX 6800 XT ou a NVIDIA RTX 3080 para LLMs locais?

RTX 3080 se você valoriza a simplicidade (o CUDA funciona sem problemas). RX 6800 XT se você quer 25% mais valor e não se importa com 5-10 horas de configuração do ROCm.

A AMD RX 7900 XTX é melhor que a RTX 4090?

Velocidade semelhante, mesma VRAM (24GB). A RX 7900 XTX é US$ 200-300 mais barata de segunda mão (US$ 450-550 vs. US$ 1.000-1.300). A configuração do ROCm é o contrapeso.

Posso usar GPUs AMD com o Ollama?

Tecnicamente sim. Com base nos nossos testes de abril de 2026 (Ollama v0.3.x, ROCm 6.x), o suporte ROCm foi inconsistente — a deteção de GPU falhou em algumas configurações e o fallback para CPU foi frequente. Verifique a lista de compatibilidade AMD atual em github.com/ollama/ollama antes de decidir; para inferência AMD fiável hoje, vLLM ou llama.cpp são os caminhos mais seguros.

Qual é o melhor caminho AMD para LLMs locais em 2026?

Llama.cpp (backend HIP) + Text Generation WebUI. Ambos têm bom suporte para AMD. Evite o Ollama.

Preciso de Ubuntu para o AMD ROCm, ou o Windows também funciona?

O suporte no Windows existe (HIP no Windows), mas é mais recente e menos estável. O Ubuntu é o caminho recomendado.

A RX 6700, a RX 6700 XT ou a 6750 é boa para modelos de 7B?

A RX 6700 (12GB) funciona, mas é 20% mais lenta que a RX 6800 XT. A RX 6700 XT (12GB, mesma VRAM) tem clocks cerca de 15% mais rápidos que a versão sem XT, mas ainda fica atrás da 6800 XT. Compre qualquer uma delas só se custar menos de US$ 250. Caso contrário, vá de 6800 XT.

Vale a pena comprar a RX 6900 XT para LLMs locais?

Não muito. A RX 6900 XT (16GB) é apenas marginalmente mais rápida que a RX 6800 XT, é mais rara de segunda mão e custa US$ 350-400 contra US$ 300-350 da 6800 XT. O aumento de preço não compensa -- compre a 6800 XT em vez dela.

A AMD Radeon 680M é boa para rodar LLMs locais?

A Radeon 680M é uma placa de vídeo integrada dentro das APUs móveis Ryzen 6000/7000 -- não é o mesmo produto que a RX 6800M ou a RX 6800 XT, que são placas dedicadas. Ela não tem VRAM dedicada, e sim compartilha a RAM do sistema, então só é viável para modelos pequenos e quantizados (cerca de 3B de parâmetros ou menos em Q4) e vai rodar visivelmente mais devagar que qualquer GPU dedicada deste guia. Para uso sério de LLMs locais, uma placa dedicada como a RX 6800 XT é a melhor escolha.

Posso combinar GPUs AMD e NVIDIA no mesmo sistema?

Teoricamente sim, mas o gerenciamento é um pesadelo. Cada GPU precisa do seu próprio runtime CUDA/HIP. Não é recomendado.

Leituras relacionadas

Melhores GPUs econômicas para LLMs locais
Melhores GPUs para LLMs locais
GPU vs CPU vs Apple Silicon
Text Generation WebUI vs vLLM vs Llama.cpp
Notebook vs Desktop para LLMs locais — Comparação de custo e desempenho entre notebook e desktop para IA.

Fontes

Documentação do AMD ROCm e GitHub: compilador HIP, matriz de compatibilidade de drivers, exemplos de inferência com LLMs
vLLM GitHub: implementação do backend AMD/ROCm e estado do suporte (v0.6.0+)
Llama.cpp GitHub: backend HIP para suporte a GPUs AMD
As GPUs AMD oferecem boas velocidades em tokens por segundo, mas a velocidade sozinha não determina a qualidade das respostas. O que você pergunta ao modelo importa tanto quanto a rapidez da resposta: context windows explained explica como estruturar solicitações mais longas dentro dos limites de memória da GPU.

Nota sobre informações de terceiros

Este artigo faz referência a modelos de IA, benchmarks, preços e licenças de terceiros. O cenário da IA muda rapidamente. Pontuações de benchmark, termos de licença, nomes de modelos e preços de API podem mudar entre o momento em que foi escrito e quando você está lendo. Antes de tomar decisões de implantação ou conformidade com base neste artigo, verifique os dados atuais na fonte oficial de cada fornecedor: fichas de modelos do Hugging Face para licenças e benchmarks, sites dos fornecedores para preços de API e EUR-Lex para o texto atual do GDPR e da Lei de IA da UE. Este artigo reflete informações publicamente disponíveis em maio de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs