Key Takeaways
- vLLM: melhor para produção de alta carga — processa 1.000+ tok/s com otimizações PagedAttention e batching contínuo.
- llama.cpp (via Ollama): melhor para hardware de consumo — leve, suporta CPU+GPU, configuração simples.
- Text-Generation-WebUI: melhor para pesquisa e fine-tuning — suporte nativo a LoRA, interface visual para experimentos.
- Regra geral: use Ollama (llama.cpp) para desenvolvimento e projetos individuais; vLLM para APIs multi-usuário em produção.
Perguntas frequentes
Qual motor de inferência devo usar para produção?
vLLM para produção de alta carga (50+ usuários simultâneos) — oferece PagedAttention, batching contínuo e throughput de 1.000+ tok/s. Para uso individual ou equipes pequenas, o Ollama (llama.cpp) é suficiente e muito mais simples de configurar.
O Text-Generation-WebUI ainda é relevante em 2026?
Sim, especialmente para fine-tuning com LoRA e experimentação com quantizações. Para chat simples ou API, o Ollama é mais prático. Para pesquisadores que precisam de flexibilidade total de configuração, o Text-Generation-WebUI ainda é a melhor escolha.
O vLLM funciona em Mac?
Suporte limitado. O vLLM é otimizado para CUDA (NVIDIA) e tem suporte experimental para Apple Silicon via MPS. Para Mac, use Ollama (llama.cpp com Metal) ou MLX — ambos têm suporte nativo e melhor desempenho.
Qual motor usa menos VRAM?
llama.cpp (Ollama) tem a menor sobrecarga de VRAM — carrega apenas o modelo quantizado sem buffers adicionais significativos. O vLLM usa mais memória para seus buffers de PagedAttention, mas isso se traduz em maior throughput.
Posso executar vLLM e Ollama na mesma máquina?
Sim, se a VRAM for suficiente. Execute-os em portas diferentes (vLLM padrão: 8000, Ollama padrão: 11434). Configuração típica: Ollama gerencia solicitações de chat rápidas de usuário único, vLLM gerencia solicitações de API em lotes. Ambos não podem carregar o mesmo modelo simultaneamente sem duplicar a VRAM.