Key Takeaways
- Mac mini M4 Pro (64 GB): $2.299. Silencioso, compacto, 70B a 10–15 tok/s. Mini PC mais compacto capaz de 70B.
- Framework Desktop (128 GB): $1.999. Mini PC 70B mais rápido a 20+ tok/s. Projetado especificamente para LLMs locais.
- ASUS PN51 + RTX 5060 Ti: $900. Melhor custo-benefício x86 tradicional. 7B a 25 tok/s, 13B a 15 tok/s.
- Intel NUC 13 + eGPU: $1.300. Qualidade de construção premium, eGPU Thunderbolt perde 15–25% de largura de banda.
- Mini-ITX personalizado (Lian Li A4): $1.000–1.400. O mais flexível, o mais difícil de montar.
- Evitar: Mini PCs apenas com GPU integrada (1–2 tok/s em 7B), cases ATX completos (não cabem), RTX 4090 (muito grande para qualquer case SFF).
O que torna um mini PC adequado para LLMs locais?
Um mini PC viável precisa de slot PCIe x16, fonte SFX 450W+, resfriamento ativo e SSD 1TB+. A maioria dos mini PCs de consumo não tem slot para GPU discreta — sempre verifique antes de comprar.
- Slot PCIe x16 (comprimento completo): Para instalar uma GPU discreta. Alguns mini PCs usam docks USB-C externos — perda de largura de banda do eGPU é de 15–25% vs. PCIe interno.
- Orçamento de energia: Mínimo fonte SFX 450W. RTX 5060 Ti (165W) + CPU (65W) + placa (50W) = 280W de carga, picos acima de 420W.
- Resfriamento: Ventiladores de case ativos são necessários. Resfriamento passivo funciona para 3B em repouso; inferência sustentada de 7B requer ar forçado.
- Armazenamento: SSD de 1TB mínimo. Um modelo 7B em Q4_K_M usa ~4 GB em disco; uma biblioteca de 5 modelos ocupa 25 GB.
Mac Mini M4 Pro: a opção Apple Silicon
O Mac mini M4 Pro com 64 GB de memória unificada executa Llama 3.3 70B a 10–15 tok/s por $2.299 — o mini PC mais compacto capaz de 70B em abril de 2026. A arquitetura de memória unificada significa que todos os 64 GB são acessíveis tanto para CPU quanto para GPU (Metal). Sem restrição de VRAM, sem gargalo PCIe. O Neural Engine do Apple Silicon não é usado para inferência LLM — a GPU Metal lida com todo o trabalho.
- Vantagens: Silencioso (sem ruído de ventilador na inferência), 13×13×3,8 cm, consumo de 30W, macOS + Linux via Asahi, aceleração GPU Metal do Ollama funciona imediatamente.
- Desvantagens: RAM não pode ser atualizada. M4 Pro Max não disponível em formato mini (apenas Mac Studio). 70B a 10–15 tok/s é mais lento que RTX 4090 (60–80 tok/s) mas cabe em um case de 3,8 cm de altura.
- Comando: `ollama run llama3.3:70b-instruct-q4_K_M` — funciona nativamente no Apple Silicon via Metal.
| Configuração Mac mini | 7B Q4 tok/s | 70B Q4 tok/s | Preço |
|---|---|---|---|
| M4 (16 GB) | 40–50 | Não cabe | $599 |
| M4 Pro (24 GB) | 50–65 | Não cabe | $1.399 |
| M4 Pro (48 GB) | 55–70 | 7–10 | $1.999 |
| M4 Pro (64 GB) | 60–80 | 10–15 | $2.299 |
Framework Desktop: AMD Ryzen AI Max 395+
O Framework Desktop com AMD Ryzen AI Max 395+ e 128 GB de memória unificada LPDDR5X executa Llama 3.3 70B a 20+ tok/s por $1.999 — lançado no final de 2025 e projetado especificamente para workloads de LLM local. O Framework Desktop usa a APU Strix Halo com 128 GB de memória unificada acessível tanto para CPU quanto para a GPU integrada Radeon 8060S.
- CPU: AMD Ryzen AI Max 395+ (16 núcleos Zen 5)
- GPU: Radeon 8060S (40 CUs RDNA 3.5)
- Memória: 128 GB LPDDR5X unificada (sem VRAM separada)
- Fator de forma: estilo Mini-ITX de 4,5 L
- Energia: 120W sustentado, 200W de pico
- Vantagens: 70B a 20+ tok/s é 1,5–2× mais rápido que Mac mini M4 Pro a preço similar. Totalmente atualizável (placa-mãe, armazenamento). Design Linux-first. Firmware open source.
- Desvantagens: Configuração ROCm necessária para Ollama (não tão plug-and-play quanto Metal no Mac). Ruído de ventilador de 40–50 dB sob carga sustentada.
| Modelo | tok/s |
|---|---|
| Llama 3.3 8B Q4 | 45–60 |
| Llama 3.3 70B Q4 | 20–25 |
| DeepSeek-R1 70B Q4 | 18–22 |
| Qwen3 72B Q4 | 22–26 |
Qual plataforma de mini PC oferece o melhor custo-benefício?
O ASUS PN51 com Ryzen 5 e RTX 5060 Ti oferece o melhor custo-benefício x86 tradicional a $900 — desempenho LLM idêntico a uma torre completa pela metade do preço.
- Intel NUC 13 Pro (Core i7): CPU compacta e atualizável de 65W. GPU via dock eGPU Thunderbolt 3. $600 base + $450 RTX 5060 Ti + $250 dock = $1.300. Melhor qualidade de construção.
- ASUS PN51 ou PN52 (barebone Mini-ITX): Adicione Ryzen 5 ($150) + 32 GB RAM ($80) + SSD 1TB ($70) + RTX 5060 Ti ($450) = $900. Melhor custo-benefício.
- Giada F350 ou Zotac ZBOX Sphere (pré-montado): Apenas GPU integrada. Adequado para 3B–7B em velocidades de CPU. Não recomendado para inferência com GPU discreta.
- Build Mini-ITX personalizado (Lian Li A4, Dan A4-H2O): O mais flexível, o mais difícil de montar. $1.000–1.400 dependendo da escolha de GPU.
Qual GPU cabe em um case de mini PC?
A RTX 5060 Ti de 16 GB se tornou a opção ideal para Mini-ITX no final de 2025 — cabe em todos os cases a 217mm, executa 13B em Q4 com margem de VRAM, abaixo de $500. A RTX 5070 funciona na maioria dos cases mas meça — algumas variantes excedem 220mm.
| GPU | VRAM | Modelo máx. | Cabe em Mini-ITX | Preço (2026) |
|---|---|---|---|---|
| RTX 5060 Ti | 16 GB | 13B Q4 | Sim (217mm) | $450–500 |
| RTX 5070 | 12 GB | 13B Q4 | Verificar variante (225mm) | $550–650 |
| RTX 4060 Ti | 8 GB | 7B Q4 | Sim (216mm) | $280–320 |
| RTX 4070 | 12 GB | 13B Q4 | Verificar variante (limite 220mm) | $400–500 |
| RTX A4000 | 16 GB | 13B (confortável) | Verificar variante | $250–350 usado |
Como gerenciar o resfriamento em um case de mini PC compacto?
Espere 60–70°C na GPU e 50–60 dB de ruído de ventilador com carga completa de inferência LLM. Undervolting reduz as temperaturas 5–10°C sem perda de velocidade mensurável.
- Temperaturas: GPU 60–70°C, CPU 55–65°C sob inferência sustentada. Não é perigoso mas os ventiladores aceleram.
- Ruído: RTX 5060 Ti em carga total = 50–60 dB (nível de aspirador de pó). Aceitável em escritório, perturbador em espaços silenciosos.
- Undervolting: Reduza a tensão do núcleo em 50mV via MSI Afterburner (Windows) ou CoreCtrl (Linux). Reduz temperaturas 5–10°C, perde 0–2% de velocidade.
- Operação silenciosa: Substitua os ventiladores da GPU por variantes Noctua ou BeQuiet! ($50–80). Reduz o ruído em 10–15 dB.
Quais são os limites dos mini PCs para LLMs locais?
Builds Mini-ITX tradicionais têm máximo de 13B (12–16 GB de VRAM). As opções Apple Silicon e AMD Ryzen AI Max eliminam essa restrição com memória unificada de até 128 GB.
- VRAM máxima Mini-ITX tradicional: 8–16 GB (apenas uma GPU discreta). RTX 4090 não cabe (slot duplo, 280mm+ de comprimento).
- Tamanho máximo de modelo (tradicional): 13B confortavelmente. 70B requer CPU offloading e penalidade de velocidade de 3–5×.
- Caminho de atualização: Limitado. Troca de GPU pode exigir modificação do case. RAM geralmente é atualizável.
- Multi-GPU: Impossível em Mini-ITX. Sem espaço para uma segunda placa discreta.
- Longevidade: Cases de mini PC projetados para cargas de trabalho de escritório, não para inferência 24/7. Limpe os filtros de pó anualmente.
Contexto regional: residência de dados com mini PCs
Mini PCs executando LLMs locais mantêm todos os dados no local — nenhum dado sai do dispositivo, atendendo por padrão aos requisitos de residência de dados da LGPD, GDPR e APPI.
- Brasil / LGPD: A Lei Geral de Proteção de Dados (Lei 13.709/2018) exige proteção de dados pessoais. A inferência local elimina transferências internacionais de dados e acordos de processamento com a ANPD, mantendo os dados dentro do Brasil.
- UE / GDPR: A inferência local elimina acordos de processador de dados (Artigo 28 GDPR). Dados profissionais sensíveis (jurídicos, médicos, financeiros) permanecem dentro da UE sem sobrecarga contratual SCC.
- Japão / APPI: A Lei de Proteção de Informações Pessoais (APPI) requer consentimento explícito para transferência transfronteiriça de dados. A inferência local elimina completamente esse requisito.
Erros comuns com mini PCs para inferência LLM local
O erro mais comum é comprar um mini PC de consumo com GPU integrada — GPUs integradas são 10× mais lentas que placas discretas para inferência LLM.
- Comprar um mini PC pré-montado com GPU integrada para inferência 7B. GPUs integradas produzem 1–2 tok/s vs. 25 tok/s da RTX 5060 Ti.
- Escolher um dock eGPU TB3 esperando velocidade completa de GPU discreta. eGPU perde 15–25% de largura de banda PCIe — espere 12 tok/s em vez de 15 em 7B.
- Assumir que qualquer case de mini PC acomoda uma fonte ATX de tamanho completo. Mini-ITX requer fontes no formato SFX ou TFX.
- Ignorar o dimensionamento de RAM — com apenas 8 GB de RAM livre, o carregamento do modelo 7B causa swap thrashing e desacelerações de 5–10×.
- Não medir o comprimento da GPU antes de pedir — variantes da RTX 5070 variam de 210mm a 242mm; verifique o limite de slot do seu case específico.
Perguntas frequentes: mini PCs para LLMs locais
Posso executar modelos 13B sem problemas em um mini PC?
Sim, com quantização Q4 com RTX 5060 Ti (16 GB) ou RTX 4070 (12 GB). A RTX 4060 Ti (8 GB) é muito ajustada para 13B confortável — a margem de VRAM cai abaixo de 1 GB.
O Intel NUC com RTX 5060 Ti externa em dock é bom para LLMs locais?
Sim. eGPU TB3 perde 15–20% de largura de banda, então espere 12 tok/s em vez de 15 em 7B. Ainda utilizável e ótimo para espaços pequenos onde uma torre completa é impraticável.
Qual é o nível de ruído de um mini PC executando LLMs?
RTX 5060 Ti em carga total atinge 50–60 dB. Undervolting ou substituir os ventiladores da GPU por variantes Noctua reduz o ruído para 40–45 dB — aceitável para a maioria dos escritórios.
Posso instalar uma RTX 4090 em um mini PC?
Não. RTX 4090 é de slot duplo e tem 280mm+. Cases SFF personalizados (Lian Li A4, Dan A4-H2O) têm máximo de 220mm de comprimento de GPU.
Um mini PC é melhor que um laptop para LLMs locais?
Para uso estacionário, sim. Mini PC oferece melhor gestão térmica (60–70°C sustentado) e largura de banda PCIe completa. Laptop limita a ~10 tok/s sob carga sustentada. Mini PC vence para uso na mesa.
Qual é o custo total de um mini PC para inferência 7B?
Build ASUS PN51: $900. Intel NUC 13 + dock eGPU RTX 5060 Ti: $1.300. Ambos executam 7B a 20–25 tok/s; PN51 oferece melhor custo-benefício.
Um mini PC precisa de solução de resfriamento dedicada para LLMs?
Sim para inferência sustentada. Ventiladores de case Mini-ITX padrão (1×80mm) são insuficientes para RTX 5060 Ti em carga total. Adicione um ventilador lateral de 92mm ou substitua os ventiladores da GPU por variantes Noctua ($50–80).
Qual CPU de mini PC é melhor para inferência LLM local?
CPU é secundária à GPU para geração de tokens. Ryzen 7 7700X ou Intel Core i7-14700K são suficientes. Priorize o orçamento de VRAM da GPU sobre a velocidade da CPU para inferência de 7B–13B.
O Mac mini M4 Pro consegue executar Llama 3.3 70B?
Sim — a configuração de 64 GB de memória unificada ($2.299) executa Llama 3.3 70B em Q4_K_M a 10–15 tok/s. A variante de 48 GB ($1.999) também cabe 70B mas com memória mais apertada (7–10 tok/s). Configurações menores (16 GB, 24 GB) não cabem 70B.
O Framework Desktop é melhor que o Mac mini M4 Pro para LLMs locais?
Para velocidade bruta em 70B, sim: Framework Desktop a $1.999 atinge 20+ tok/s no 70B vs Mac mini M4 Pro ($2.299) a 10–15 tok/s. Escolha Framework para velocidade e atualizabilidade, Mac mini para operação silenciosa e experiência macOS plug-and-play.