Key Takeaways
- A inferência somente com CPU funciona bem para modelos de 3-13B em processadores modernos com 8-32 GB de RAM.
- Melhores modelos CPU: Phi-4 Mini (3,8B, 2,3 GB, 12 tokens/s), Gemma 3 2B (1,5 GB, 15 tokens/s), Llama 3.2 3B (2 GB, 10 tokens/s).
- A inferência CPU é 10-30× mais lenta que a GPU, mas usa zero VRAM dedicada.
- Ative o modo somente CPU no Ollama ou llama.cpp com uma simples opção de linha de comando.
- A inferência CPU é ideal para APIs de produção (sem sobrecarga de GPU), dispositivos edge e ambientes com orçamento limitado.
As CPUs podem rodar LLMs?
Sim, CPUs modernas (Intel i7 10.ª geração+, AMD Ryzen 5000+, Apple M-series) podem rodar modelos de 3-13B a 8-15 tokens por segundo. Isso é 10-30× mais lento do que uma GPU, mas não requer VRAM dedicada. Uma CPU com RAM do sistema suficiente (8-32 GB) pode rodar modelos que exigiriam uma GPU de US$ 300 ou mais.
A inferência em CPU troca velocidade por acessibilidade: zero sobrecarga de GPU, estabilidade perfeita e sem problemas de drivers. Para casos de uso ocasionais (chatbots que respondem poucas solicitações por segundo, processamento de documentos offline), o modo somente CPU é prático.
CPUs modernas têm instruções vetoriais AVX-512 ou NEON/SVE que aceleram operações matriciais. Ferramentas como llama.cpp e Ollama as utilizam automaticamente.
Melhores modelos somente CPU 2026
| Modelo | Parâmetros | RAM necessária | Velocidade CPU | Melhor para |
|---|---|---|---|---|
| Phi-4 Mini | 3,8B | ~2,3 GB | 12 tok/s | Chat geral, raciocínio |
| Gemma 3 2B | 2B | ~1,5 GB | 15 tok/s | Velocidade máxima, edge |
| Llama 3.2 3B | 3B | ~2 GB | 10 tok/s | Qualidade equilibrada |
| Mistral Small Q4 | 7B | ~4,5 GB | 5-7 tok/s | Tarefas mais complexas sem GPU |
Como rodar no modo somente CPU
- Ollama (mais simples): `OLLAMA_NUM_GPU=0 ollama run llama3.2:3b` -- força somente CPU
- llama.cpp: `./llama-cli -m modelo.gguf --n-gpu-layers 0` -- zero camadas na GPU
- LM Studio: Nas configurações do modelo, defina "GPU Layers" como 0
Perguntas frequentes
Posso rodar LLMs somente com CPU?
Sim. CPUs modernas com 8+ GB de RAM podem rodar modelos de 3-7B a 8-15 tokens/s. Isso é suficiente para chat interativo com respostas em 10-30 segundos.
Qual é o melhor modelo LLM para CPU sem GPU?
Phi-4 Mini (3,8B) é o melhor equilíbrio de qualidade e velocidade para somente CPU em 2026. Gemma 3 2B é o mais rápido. Llama 3.2 3B é o mais equilibrado.
A inferência somente CPU é adequada para o português?
Sim. Qwen3 7B (5 tok/s em CPU) tem melhor suporte para português. Phi-4 Mini e Llama 3.2 3B também funcionam razoavelmente em português.
A inferência CPU é adequada para produção?
Sim, se você não precisar de latência em tempo real. Processamento em lote, APIs assíncronas e fluxos de trabalho offline funcionam muito bem em CPU.