Key Takeaways
- Desktop (RTX 4070 Ti): 80 tok/s sustentados, $19/tok/s, modelos ilimitados. Melhor para uso regular.
- MacBook M5 Max: 55–70 tok/s, throttling após 15–18 min, $100+/tok/s. Melhor para mobilidade.
- Laptop com GPU discreta (RTX 4060 Mobile): 15–25 tok/s, throttling eventual. Compromisso razoável.
- Laptop somente CPU: 5–10 tok/s. Funcional para uso ocasional.
- A diferença de custo é 7×: desktop a $19/tok/s vs laptop a $100+/tok/s.
Dados rápidos: laptop vs desktop para LLMs
| Fator | Laptop (MacBook M5 Max) | Desktop (RTX 4070 Ti) |
|---|---|---|
| Velocidade pico | 55–70 tok/s | 70–90 tok/s |
| Velocidade sustentada | 35–45 tok/s (após throttling) | 70–90 tok/s (sem throttling) |
| Custo por tok/s | ~$100/tok/s | ~$19/tok/s |
| Tamanho máximo de modelo | 70B (com 128 GB) | 13B (12 GB VRAM) |
| Portabilidade | Totalmente portátil | Estacionário |
Throttling térmico em laptops: o que esperar
O throttling térmico ocorre quando o laptop aquece demais e reduz o clock do processador para resfriar — resultando em 30–50% de queda de velocidade após 15–20 minutos de inferência LLM intensa.
- MacBook Pro M5 Max: throttling após ~18 min de inferência 70B sustentada. Velocidade cai de 55 para 35 tok/s.
- Laptops com RTX 4060 Mobile: throttling após ~15 min. Velocidade cai de 25 para 15 tok/s.
- Desktops: sem throttling em uso normal — sistema de resfriamento adequado para carga contínua.
- Solução para laptop: elevador de laptop + pad de resfriamento reduz throttling em 30–40%.
Quando escolher laptop para LLMs locais
- Você usa LLMs em vários lugares (escritório, casa, viagem).
- Uso ocasional (<2 horas/dia de inferência intensa).
- Você precisa de modelos 70B e está disposto a pagar mais (MacBook Pro M5 com 128 GB).
- macOS é o seu sistema operacional preferido.
Quando escolher desktop para LLMs locais
- Uso intenso (3+ horas/dia de inferência).
- Orçamento limitado — melhor custo-benefício por tok/s.
- Você precisa de performance sustentada sem throttling.
- Futuras atualizações de GPU são importantes para você.
Perguntas frequentes sobre laptop vs desktop para LLMs locais
Posso executar LLMs locais no meu laptop?
Sim, mas com limitações. Laptops com GPU discreta (RTX 4060 Mobile) executam modelos 7B–13B a 15–25 tok/s. Laptops sem GPU dedicada executam via CPU a 5–10 tok/s. O throttling térmico pode desacelerar após 15–20 min de uso intenso.
Um desktop é muito melhor que um laptop para LLMs locais?
Para desempenho sustentado, sim — 4–6× mais rápido e sem throttling. Desktop RTX 4070 Ti: $19/tok/s. MacBook M5 Max: $100+/tok/s. Para uso portátil ocasional, um laptop bom (MacBook Pro M5) é suficiente.
Qual laptop é melhor para LLMs locais em 2026?
MacBook Pro M5 Max (128 GB) para máxima memória e modelos 70B. Para Windows, ASUS ROG Zephyrus com RTX 4060 Mobile oferece bom custo-benefício. Qualquer laptop com 16+ GB RAM e GPU discreta funciona.