Skip to main content
PromptQuorumPromptQuorum
Início/LLMs locais/llama.cpp vs Ollama vs vLLM 2026: Velocidade, Batching e Benchmarks GPU
Tools & Interfaces

llama.cpp vs Ollama vs vLLM 2026: Velocidade, Batching e Benchmarks GPU

·9 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

llama.cpp é o mais rápido por token em modelos pequenos; Ollama é o mais simples; vLLM é o melhor para throughput e batching. A partir de abril de 2026, escolha de acordo com seu caso de uso: chat casual → Ollama; velocidade para um único usuário → llama.cpp; multiusuário/batching → vLLM.

llama.cpp é o mais rápido por token em modelos pequenos; Ollama é o mais simples; vLLM é o melhor para throughput e batching. A partir de abril de 2026, escolha de acordo com seu caso de uso: chat casual → Ollama; velocidade para um único usuário → llama.cpp; multiusuário/batching → vLLM. Os três executam os mesmos modelos e produzem saídas idênticas — velocidade e throughput diferem.

Slide Deck: llama.cpp vs Ollama vs vLLM 2026: Velocidade, Batching e Benchmarks GPU

O conjunto de slides abaixo cobre: benchmarks de velocidade llama.cpp vs Ollama vs vLLM (RTX 4090, Llama 3 70B Q4 — 36 vs 34 vs 32 tok/s), tabela comparativa de recursos, comparativo de throughput em batch (solicitação única vs 10 simultâneas: 36 tok/s vs 250+ tok/s), complexidade de instalação, compatibilidade com API e 4 erros comuns na seleção de backend. Baixe o PDF como cartão de referência para seleção de backend LLM local.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • llama.cpp: Menor latência por token (menor ms/token). Ideal para chat interativo. Dependências mínimas.
  • Ollama: O mais fácil de usar. Um comando, download automático de modelos. Trade-off: 5–10% menos throughput que o llama.cpp.
  • vLLM: Maior throughput (tokens/s) em solicitações em batch. Ideal para servidores API em produção. Curva de aprendizado mais íngreme.
  • Chat para um único usuário: llama.cpp ou Ollama (velocidade quase idêntica).
  • API multiusuário: vLLM (throughput 3–5× maior).
  • Uso casual: Ollama (a simplicidade vence).
  • Os três produzem saídas de modelo idênticas — apenas velocidade e throughput diferem.
  • Você pode executar os três simultaneamente na mesma máquina (portas diferentes). Não entram em conflito.

Benchmarks de velocidade — RTX 4090 24 GB

llama.cpp lidera com 38 tok/s por token único; vLLM domina com 250+ tok/s em batch. Medido na RTX 4090 24 GB, Llama 3.3 70B Q4_K_M, solicitação única, abril de 2026:

BackendTokens/sms/tokenVRAM usadaThroughput em batch
llama.cpp382639 GBN/A (sem batching)
Ollama362839 GBN/A (batch único)
vLLM342941 GB250+ tok/s (contínuo)
Comparativo de velocidade e throughput: llama.cpp 38 tok/s por token único (26ms), Ollama 36 tok/s, vLLM 34 tok/s em solicitação única, mas vLLM 250+ tok/s em batch (10 solicitações simultâneas).
Comparativo de velocidade e throughput: llama.cpp 38 tok/s por token único (26ms), Ollama 36 tok/s, vLLM 34 tok/s em solicitação única, mas vLLM 250+ tok/s em batch (10 solicitações simultâneas).

Benchmarks de velocidade — RTX 3060 12 GB

Medido na RTX 3060 12 GB, Llama 3.2 8B Q4_K_M, solicitação única, abril de 2026:

BackendTokens/sms/tokenVRAM usadaThroughput em batch
llama.cpp52195.2 GBN/A
Ollama48215.4 GBN/A
vLLM45226.1 GB180 tok/s (batch=8)

Tabela comparativa de recursos

llama.cpp: melhor quantização e velocidade bruta. Ollama: instalação mais simples. vLLM: melhor batching para produção.

Recursollama.cppOllamavLLM
Tempo de instalação30 min (compilar)5 min (um comando)15 min (pip install)
API compatível com OpenAI✅ (llama-server)✅ (nativa)✅ (nativa)
Formato do modeloGGUFGGUFSafeTensors / HF
Suporte GPUCUDA, ROCm, MetalCUDA, ROCm, MetalSomente CUDA
Batching✅ contínuo
Multi-GPU✅ tensor parallel
Apple Silicon✅ Metal✅ Metal
Interface de chat❌ (apenas servidor)❌ (requer Open WebUI)❌ (apenas API)
LicençaMITMITApache 2.0

Batching e throughput

vLLM processa 32+ solicitações em paralelo; llama.cpp e Ollama processam uma de cada vez. Aqui é onde o vLLM domina:

  • llama.cpp: Sem batching nativo. Uma solicitação por vez. Latência: 27ms/token. Throughput: 36 tok/s.
  • Ollama: Apenas batch único. Não consegue processar 2+ solicitações em paralelo. Mesmo throughput que llama.cpp.
  • vLLM: Batching contínuo nativo (gerencia dinamicamente solicitações simultâneas). Processa 32 solicitações simultaneamente. Throughput: 250+ tok/s na mesma RTX 4090.
  • A vantagem do vLLM se multiplica com usuários simultâneos. Para servidores API com 10+ usuários: vLLM é obrigatório.

Complexidade de instalação

Ollama é o mais simples (5 min); vLLM requer Python (15 min); llama.cpp requer compilação (30 min). Resumo:

llama.cpp: Compilar do código-fonte ou baixar um binário. Gerenciamento manual de arquivos de modelo. 30 min de instalação.

Ollama: `brew install ollama` ou baixar o instalador. `ollama run llama3.2`. 5 min de instalação.

vLLM: `pip install vllm`, depois `python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3.3-8B-Instruct`. 15 min de instalação (Python + dependências).

Vencedor em simplicidade: Ollama.

Tempo de instalação de LLM local por sistema operacional: macOS leva 6 minutos sem comandos de terminal; Windows leva 15–20 minutos com interface gráfica; Linux Ubuntu requer 40–70 minutos incluindo instalação do CUDA.
Tempo de instalação de LLM local por sistema operacional: macOS leva 6 minutos sem comandos de terminal; Windows leva 15–20 minutos com interface gráfica; Linux Ubuntu requer 40–70 minutos incluindo instalação do CUDA.

Compatibilidade com API

Os três agora suportam APIs compatíveis com OpenAI; Ollama e vLLM são os mais fáceis.

llama.cpp: API compatível com OpenAI (via `llama-server`, adicionado no final de 2024). Funciona com extensões de IDE.

Ollama: API compatível com OpenAI (via `ollama serve` + biblioteca cliente). Funciona com a maioria das extensões de IDE.

vLLM: API compatível com OpenAI (endpoint nativo `/v1/chat/completions`). Maior compatibilidade.

Para integração com IDE (VS Code, Cursor): Ollama ou vLLM. Pule o llama.cpp.

Quando usar cada um?

llama.cpp: Dependências mínimas, velocidade bruta. Use se estiver construindo um motor de inferência personalizado. Melhor para Mac (aceleração Metal).

Ollama: Simplicidade tudo-em-um. Use para interface de chat e uso pessoal. Funciona em Mac, Linux, Windows.

vLLM: Servidor API em produção. Use para deploys multiusuário e requisitos de alto throughput. Requer NVIDIA CUDA — não funciona em Apple Silicon (M1/M2/M3/M4).

Matriz de seleção de backend: Ollama ideal para chat pessoal (1 usuário). llama.cpp para inferência personalizada. vLLM é a única opção para API em produção com 10+ usuários simultâneos. Os três produzem saídas de modelo idênticas.
Matriz de seleção de backend: Ollama ideal para chat pessoal (1 usuário). llama.cpp para inferência personalizada. vLLM é a única opção para API em produção com 10+ usuários simultâneos. Os três produzem saídas de modelo idênticas.

Erros comuns ao escolher um backend de inferência

  • Erro: Assumir que llama.cpp é sempre o mais rápido. Isso só é verdade para latência por token único. vLLM vence em throughput para solicitações em batch (7× mais rápido com 10+ usuários simultâneos).
  • Erro: Descartar o Ollama por ser lento. Ollama é apenas 5–10% mais lento que o llama.cpp puro — uma diferença insignificante para chat interativo onde 34 tok/s parece instantâneo.
  • Erro: Achar que você deve escolher apenas um backend. Você pode executar os três simultaneamente em portas diferentes. Use Ollama para chat pessoal, vLLM para seu servidor API.
  • Erro: Usar vLLM para chat de um único usuário. A vantagem do vLLM é o batching. Para chat interativo de um único usuário, a configuração mais simples do Ollama vence.

Contexto regional e residência de dados

Brasil (LGPD / ANPD): Os três backends executam completamente on-premises. Nenhum dado sai da sua infraestrutura, atendendo à LGPD (Lei Geral de Proteção de Dados, Lei nº 13.709/2018) e às diretrizes da ANPD. Recomendado para cargas de trabalho financeiras, de saúde e jurídicas no Brasil.

UE/GDPR: A inferência on-premises satisfaz o Artigo 28 do GDPR (nenhum acordo de processador de dados necessário). Recomendado para setores financeiros, de saúde e jurídicos da UE.

América Latina (leis locais): A inferência local mantém os dados dentro da sua infraestrutura, cumprindo regulamentações de privacidade locais equivalentes no México, Argentina e Colômbia.

FAQ

Qual devo usar como iniciante?

Ollama. Um comando, download automático de modelos, interface limpa.

Qual é o mais rápido?

Para solicitação única: llama.cpp (~3% mais rápido que Ollama). Para 10 solicitações simultâneas: vLLM (~7× mais rápido).

Posso usar llama.cpp em vez do Ollama?

Sim, mas requer mais configuração. O ganho de velocidade é insignificante (3–5%) para a maioria dos usuários.

vLLM está pronto para produção?

Sim. Usado em deploys reais. Curva de aprendizado mais íngreme, mas vale a pena para alto throughput.

Posso mudar de backend sem retreinar?

llama.cpp e Ollama usam o formato GGUF (intercambiáveis diretamente). vLLM usa SafeTensors e requer conversão do modelo.

Qual backend é o mais estável?

Ollama (simples, menos bugs). llama.cpp também é estável. vLLM é atualizado frequentemente (mais recursos, mudanças ocasionais).

vLLM funciona no Mac?

Não. vLLM requer NVIDIA CUDA. Para Mac, use llama.cpp ou Ollama com aceleração Metal.

Leitura relacionada

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

llama.cpp vs Ollama vs vLLM 2026: velocidade e benchmarks