Key Takeaways
- Somente CPU: Phi-4 Mini 3.8B — 5–15 tok/s, chat básico e resumos
- 4 GB VRAM: TinyLlama 1.1B Q5 — 20–40 tok/s, respostas rápidas e tarefas simples
- 8 GB VRAM (ponto ideal): Mistral Small Q4 ou Llama 3.3 8B Q4 — 25–60 tok/s, experiência completa de assistente
- Qualquer GPU discreta supera a CPU — mesmo 4 GB VRAM dão 20–40 tok/s.
- Todos os modelos funcionam no Ollama com um único comando.
Qual modelo é mais rápido para o seu hardware?
Associe seu hardware ao modelo correto — a escolha errada deixa 4–10× de velocidade sem aproveitar.
| Hardware | Melhor modelo | Velocidade | Comando |
|---|---|---|---|
| Somente CPU (sem GPU) | Phi-4 Mini 3.8B | 5–15 tok/s | ollama run phi4-mini |
| 4 GB VRAM (GTX 1650, etc.) | TinyLlama 1.1B Q5 | 20–40 tok/s | ollama run tinyllama |
| 8 GB VRAM (RTX 3060, etc.) | Llama 3.3 8B Q4 | 25–60 tok/s | ollama run llama3.2:8b |
Qual modelo você deve usar?
- Para chat de propósito geral com 8 GB VRAM: Llama 3.3 8B Q4 — melhor qualidade no ponto ideal.
- Para velocidade máxima (qualquer hardware): TinyLlama 1.1B Q5 — mais rápido, qualidade reduzida.
- Para somente CPU: Phi-4 Mini 3.8B — melhor equilíbrio qualidade/velocidade sem GPU.
- Para multilíngue (incluindo PT-BR): Aya 8B — treinado para 101 idiomas, incluindo português.
Guia de instalação por nível de hardware
# Somente CPU: Phi-4 Mini
ollama run phi4-mini
# 4 GB VRAM: TinyLlama
ollama run tinyllama
# 8 GB VRAM: Llama 3.3 8B Q4
ollama run llama3.2:8b
# Para português: Aya 8B
ollama run aya:8bPerguntas frequentes sobre LLMs em hardware de baixo custo
Qual LLM local funciona em hardware com somente CPU?
Phi-4 Mini 3.8B é o melhor modelo somente CPU — 5–15 tok/s em processadores modernos. TinyLlama 1.1B é mais rápido (8–20 tok/s) mas com qualidade reduzida.
Quanta VRAM eu preciso para LLMs locais interativos?
8 GB VRAM é o ponto ideal para 2026: roda Mistral Small Q4 e Llama 3.3 8B Q4 a 25–60 tok/s — velocidade interativa completa. 4 GB funciona para modelos 1B–3B. Somente CPU é possível mas mais lento.
Posso executar LLMs em português no meu PC de baixo custo?
Sim. Aya 8B suporta 101 idiomas incluindo português brasileiro. Com 8 GB VRAM, atinge 20–40 tok/s em PT-BR.