Key Takeaways
- GPU NVIDIA (RTX 5090): 200 tok/s em 8B — mais rápida para modelos até 24 GB VRAM.
- Apple Silicon (M-series): única arquitetura de consumo capaz de executar 70B nativamente.
- CPU (somente): 5–15 tok/s — viável para uso ocasional, impraticável para uso regular.
- A largura de banda de memória explica a diferença de velocidade: GPU 1,8 TB/s vs CPU 50 GB/s.
- Para 7B–13B: GPU NVIDIA ganha em custo-benefício. Para 70B+: Apple Silicon é a única opção de consumo.
Comparativo de desempenho: GPU vs CPU vs Apple Silicon
| Arquitetura | Exemplo | Velocidade 8B | Velocidade 70B | Custo (2026) |
|---|---|---|---|---|
| GPU NVIDIA | RTX 5090 (24 GB) | 150–200 tok/s | Não cabe (precisa de offloading) | $2.000–2.500 |
| GPU NVIDIA | RTX 5060 Ti (16 GB) | 40–60 tok/s | Não cabe em VRAM | $450–500 |
| Apple Silicon | Mac Studio M2 Ultra (192 GB) | 80–100 tok/s | 30–40 tok/s | $3.999+ |
| Apple Silicon | Mac mini M4 Pro (64 GB) | 60–80 tok/s | 10–15 tok/s | $2.299 |
| Somente CPU | Ryzen 9 7950X | 5–15 tok/s | 2–5 tok/s | $300–500 |
GPU NVIDIA: a melhor opção para 7B–13B
Para modelos de 7B–13B, as GPUs NVIDIA oferecem o melhor custo-benefício. RTX 5060 Ti 16 GB ($450) executa Llama 3.3 8B a 40–60 tok/s.
- CUDA: Ecossistema maduro, todos os frameworks de ML suportam NVIDIA nativamente.
- VRAM: Limite fixo — um modelo de 70B Q4 precisa de ~40 GB VRAM, além de qualquer GPU de consumo única.
- Multi-GPU: Duas GPUs podem ser combinadas, mas a configuração é complexa.
- Melhor para: Uso diário com modelos 7B–13B, fine-tuning, experimentação.
Apple Silicon: única opção de consumo para 70B
A memória unificada do Apple Silicon elimina o limite de VRAM — o Mac Studio M2 Ultra (192 GB) executa qualquer modelo que caiba em sua memória.
- Memória unificada: CPU e GPU compartilham o mesmo pool de memória — sem limite de VRAM separado.
- Metal: Framework GPU da Apple, suportado nativamente pelo Ollama e llama.cpp.
- Silencioso: Sem ruído de ventilador em inferência leve.
- Melhor para: Modelos 70B+, uso discreto em escritório, macOS como plataforma principal.
Perguntas frequentes sobre GPU vs CPU vs Apple Silicon
GPU ou Apple Silicon para LLMs locais?
Depende do tamanho do modelo. Para 7B–13B: GPU NVIDIA é mais rápida e mais econômica. Para 70B+: Apple Silicon (Mac Studio M2 Ultra/M3 Ultra) é a única opção de consumo com memória suficiente.
A CPU é viável para LLMs locais?
Para uso ocasional e modelos pequenos (3B–7B), sim — 5–15 tok/s é utilizável. Para uso interativo regular, uma GPU de entrada (RTX 4060, $280) oferece 20–25 tok/s — uma diferença perceptível.
Qual arquitetura é melhor para PT-BR?
Todos funcionam igualmente bem para português — a língua é determinada pelo modelo, não pelo hardware. Aya 8B (multilíngue) e Qwen são boas opções para PT-BR em qualquer arquitetura.