Key Takeaways
- macOS (Apple Silicon): Custo de GPU zero, Ollama gratuito, gerencia Llama 3.3 8B sem problemas. Melhor para usuários casuais ou não técnicos.
- Windows (GPU NVIDIA): Padrão da indústria para aceleração GPU. Ecossistema CUDA maduro. GPU de $150–1.600 conforme o tamanho do modelo.
- Linux (GPU NVIDIA ou AMD): Menor overhead (10–20% menos energia que Windows), melhor para servidores 24/7. Mesmo custo de GPU que Windows.
- Velocidade de inferência: Os três SOs produzem a mesma velocidade de saída com a mesma GPU. A dificuldade de configuração do software difere.
- Complexidade de configuração: macOS mais simples (Ollama com um clique); Windows intermediário (requer drivers NVIDIA); Linux requer familiaridade com linha de comando.
- Custo por inferência: Linux < Windows = macOS (igual para GPU acelerada; macOS mais barato apenas para CPU).
- Ecossistema: NVIDIA CUDA disponível no Windows/Linux (não nativo no Mac). AMD ROCm no Linux/Windows. Apple Metal apenas no macOS.
- Melhor escolha: Mac para laptop/uso casual; Windows para gaming de desktop + LLM; Linux para servidores.
Qual é o custo de hardware por sistema operacional?
macOS (geração Apple M5 — lançamento março 2026): MacBook Pro M5 Pro 64 GB ($2.499–3.199) executa 70B Q4 a 15–20 tok/s. MacBook Pro M5 Max 128 GB ($3.499–4.999) executa 70B Q8 a 25–35 tok/s. MacBook Air M5 32 GB ($1.099–1.299) gerencia 8B sem problemas. Custo adicional total ao atualizar: $0 se já tiver um Mac; $1.099+ se comprar novo.
Windows (GPU NVIDIA necessária — abril 2026): RTX 5060 Ti 16 GB nova ($450–500) executa 70B Q4 a 20–40 tok/s. RTX 5090 32 GB nova ($2.000) executa 70B a 40–50 tok/s (primeira GPU de consumo individual a executar 70B sem dividir). RTX 4070 usada ($350), RTX 4090 ($1.000–1.400) ainda disponíveis. Custo adicional: $350–2.000.
Linux (GPU NVIDIA ou AMD): Servidor bare-metal ($300–1.000) ou reutilizar máquina antiga + RTX 5060 Ti/5090 ($450–2.000). Mesmo custo de GPU que Windows. Custo adicional: $150–2.600.
💡Tip: 💡 Dica profissional: M5 Max 128 GB vs RTX 5090: M5 Max é 1,3–1,5× mais lento (25–35 vs 40–50 tok/s) mas custa $400 menos, tem 4× mais memória e é silencioso (sem ruído de ventilador de GPU).
Qual é a complexidade de configuração de software por SO?
macOS (6 minutos): Instale o Ollama com um clique em ollama.ai. Abra o terminal, execute `ollama run llama3.2:8b`. Feito. O Metal GPU é automático — não requer configuração de drivers.
Windows (15–20 minutos): Baixe e instale os drivers NVIDIA (se necessário). Instale o Ollama para Windows. Execute `ollama run llama3.2:8b` no PowerShell. O CUDA é detectado automaticamente.
Linux (40–70 minutos): Instale os drivers NVIDIA via apt/dnf. Configure o CUDA toolkit. Instale o Ollama via curl. Verifique o reconhecimento da GPU com `nvidia-smi`. Tempo total de configuração varia por distribuição — Ubuntu é mais rápido, Arch demora mais.
| Sistema Operacional | Tempo de configuração | Complexidade | Requer linha de comando |
|---|---|---|---|
| macOS (Apple Silicon) | 6 min | Simples | Opcional |
| Windows | 15–20 min | Médio | Sim (PowerShell) |
| Linux | 40–70 min | Avançado | Sim (obrigatório) |
Como se compara o desempenho de inferência entre os SOs?
Velocidade de saída de tokens: todos os três SOs produzem velocidades equivalentes com o mesmo hardware. A GPU ou NPU faz o trabalho computacional; o SO tem overhead mínimo na velocidade de inferência. As diferenças aparecem no startup, eficiência de memória e utilização de bateria.
| Configuração | Modelo | Velocidade | VRAM/RAM usada |
|---|---|---|---|
| macOS M5 Max 128 GB | Llama 3.3 8B Q4 | 50–65 tok/s | ~5 GB unificada |
| Windows RTX 5090 32 GB | Llama 3.3 8B Q4 | 90–130 tok/s | ~5 GB VRAM |
| Linux RTX 5090 32 GB | Llama 3.3 8B Q4 | 95–135 tok/s | ~5 GB VRAM |
| macOS M5 Max 128 GB | Llama 3.3 70B Q4 | 25–35 tok/s | ~40 GB unificada |
| Windows RTX 5090 32 GB | Llama 3.3 70B Q4 | 40–50 tok/s | ~40 GB VRAM |
| Linux RTX 5090 32 GB | Llama 3.3 70B Q4 | 42–52 tok/s | ~40 GB VRAM |
Suporte de ferramentas e frameworks por SO
| Ferramenta/Framework | macOS | Windows | Linux |
|---|---|---|---|
| Ollama | ✓ (Metal) | ✓ (CUDA) | ✓ (CUDA/ROCm) |
| LM Studio | ✓ | ✓ | ✓ |
| MLX (Apple) | ✓ (nativo) | ✗ | ✗ |
| llama.cpp | ✓ (Metal) | ✓ (CUDA) | ✓ (CUDA/ROCm) |
| vLLM | ✗ | ✓ (CUDA) | ✓ (CUDA/ROCm) |
| Open WebUI | ✓ (Docker) | ✓ (Docker) | ✓ (Docker/nativo) |
| AMD ROCm | ✗ | Parcial | ✓ (melhor suporte) |
Análise do custo total de propriedade em 3 anos
| Configuração | Custo inicial | Energia 3 anos | TCO 3 anos |
|---|---|---|---|
| macOS MacBook Air M5 32 GB | $1.099 | $30 | $1.129 |
| Linux servidor + RTX 5060 Ti | $750 | $60 | $810 |
| Windows desktop + RTX 5060 Ti | $850 | $70 | $920 |
| macOS MacBook Pro M5 Max 128 GB | $3.499 | $30 | $3.529 |
| Windows desktop + RTX 5090 | $2.500 | $120 | $2.620 |
Erros comuns a evitar
- Comprar uma GPU NVIDIA para usar no macOS esperando suporte CUDA. O macOS usa Metal, não CUDA. Para inferência com NVIDIA, use Windows ou Linux.
- Instalar o Ubuntu em um laptop com GPU AMD e descobrir que o ROCm não tem suporte perfeito nesse hardware específico. Verifique a compatibilidade ROCm antes de comprar.
- Executar LLMs grandes no Windows com apenas 16 GB de RAM do sistema. Com 16 GB VRAM (RTX 4080), você precisa de pelo menos 32 GB de RAM do sistema para evitar trashing.
- Esperar que o Linux seja simples como o macOS para iniciantes. A instalação de drivers NVIDIA pode falhar em kernels não padrão. Fique com Ubuntu LTS para melhor compatibilidade.
Considerações regionais
Brasil: Os preços do MacBook Pro são geralmente 30–50% mais altos no Brasil por impostos de importação (ICMS, IPI). Uma configuração Linux com GPU é mais acessível para usuários brasileiros. Os custos de energia elétrica (~R$0,65–0,80/kWh residencial) tornam o TCO de 3 anos dos LLMs locais similar ao europeu.
Portugal/UE: Conformidade com RGPD favorece LLMs locais em todos os três SOs. O macOS com Apple Silicon é popular por ser silencioso e adequado para escritórios.
Japão: As configurações macOS com Apple Silicon são populares por eficiência energética e silêncio — importantes em espaços de trabalho japoneses compactos.
Perguntas frequentes
Qual SO é mais rápido para LLMs locais?
Para GPU NVIDIA: Linux é 1–5% mais rápido que Windows no mesmo hardware. Para Apple Silicon: macOS é o único SO compatível. Para AMD: Linux com ROCm supera Windows com ROCm.
Posso executar LLMs no Windows sem uma GPU NVIDIA?
Sim. Ollama no Windows suporta CPU (mais lento, 10–30 tok/s), GPU AMD via DirectML e GPU integrada Intel. Para desempenho sério em LLM, uma GPU dedicada é recomendada.
O macOS M5 consegue competir com uma RTX 4090 em LLMs?
Em modelos 70B: sim — o M5 Max (614 GB/s) executa Llama 3.3 70B enquanto a RTX 4090 (24 GB VRAM) não consegue carregar o modelo inteiro. Em modelos 8B: a RTX 4090 (1.008 GB/s) é 1,5–2× mais rápida que o M5 Max.
O Linux é muito difícil para usuários não técnicos configurarem para LLMs?
Para usuários não técnicos: sim. A instalação de drivers NVIDIA requer terminal e pode ter problemas de compatibilidade. O macOS com Ollama é a opção mais acessível para iniciantes. O Windows é intermediário.