O que fazem Braintrust, PromptHub, Vellum e Promptfoo
📍 In One Sentence
Braintrust pontua, PromptHub versiona, Vellum faz A/B testing, Promptfoo testa regressões — quatro ferramentas de prompts que se sobrepõem mas não se substituem.
💬 In Plain Terms
Pense nisso como construir software: você precisa de um framework de teste (Promptfoo), um dashboard de qualidade (Braintrust), um pipeline de implantação (Vellum) e um repositório de código (PromptHub). A maioria das equipes precisa de dois desses, não dos quatro.
Braintrust, PromptHub, Vellum e Promptfoo resolvem problemas diferentes de equipes de prompts. Braintrust é uma plataforma de avaliação (pontua saídas). PromptHub é um sistema de controle de versões (organiza e compartilha prompts). Vellum é uma plataforma de implantação com A/B testing (executa experimentos em tráfego real). Promptfoo é uma ferramenta de automação de testes (detecta regressões em CI/CD). Elas se sobrepõem mas não se substituem.
A razão pela qual as equipes têm dificuldade para escolher uma: as quatro afirmam "otimizar prompts", mas o fazem em etapas diferentes. Braintrust otimiza medindo; Vellum otimiza dividindo o tráfego; Promptfoo otimiza detectando regressões; PromptHub otimiza organizando. Uma equipe pode usar Braintrust para descobrir um prompt melhor, Promptfoo para testá-lo em CI/CD e Vellum para implantá-lo.
Este guia é um comparativo direto de quatro ferramentas específicas. Para um ranking mais amplo de todas as ferramentas de prompt engineering, consulte Melhores ferramentas de prompt engineering 2026. Para recursos de otimização em equipe incluindo DSPy e Helicone, consulte Melhores ferramentas de otimização de prompts para equipes.
Como comparamos essas ferramentas
Avaliamos as quatro ferramentas segundo cinco critérios que importam em fluxos de trabalho reais de equipes: quão bem suportam a colaboração em equipe, se incluem A/B testing ou experimentação, capacidades de scoring ou avaliação, integração CI/CD e transparência de preços.
| Critério | O que mede | Por que importa |
|---|---|---|
| Colaboração em equipe | Controle de acesso por funções, ramos, dashboards compartilhados | Múltiplos engenheiros devem editar prompts sem sobrescrever uns aos outros |
| A/B testing | Comparação de variantes lado a lado, divisão de tráfego | Comparar variantes no mesmo conjunto de entrada ou tráfego de produção |
| Avaliação/scoring | Métricas personalizadas, scorers baseados em LLM, gates de qualidade | Medir a qualidade da saída, não apenas observá-la visualmente |
| Integração CI/CD | CLI, API, GitHub Actions, testes automatizados | Detectar regressões antes da implantação; automatizar controles de qualidade |
| Transparência de preços | Página de preços pública, custos claros por unidade | Previsibilidade orçamentária para equipes de 3–10 pessoas |
Braintrust: profundidade de avaliação a $249/mês (Pro)
Braintrust é uma plataforma de avaliação de IA que registra cada chamada de API, pontua saídas com métricas personalizadas e executa experimentos A/B em um laboratório compartilhado — ideal para equipes que medem a qualidade da saída sistematicamente. Braintrust não é um construtor de prompts nem um sistema de controle de versões; é um laboratório de avaliação compartilhado.
O tier gratuito inclui 1M spans de traces e 10K scores com usuários ilimitados — suficiente para a maioria dos fluxos de trabalho de avaliação pré-produção. O plano Pro é $249/mês. Braintrust adicionou o agente Loop em 2026: um avaliador autônomo que gera casos de teste e itera sobre prompts sem configuração manual. O servidor MCP conecta Claude Code e Cursor diretamente ao stack de avaliação do Braintrust a partir do seu IDE. O proxy de logging integra-se com as APIs da OpenAI, Anthropic e Google sem mudanças de código. Você define funções de scoring personalizadas em TypeScript ou Python. A integração com GitHub permite versionar prompts junto ao código. Certificação SOC 2 Type II agora disponível.
Os melhores recursos para equipes: dashboards de experimentos compartilhados (todos os membros veem resultados de avaliação em tempo real), controle de acesso por funções (admin/membro/observador), histórico de commits tipo Git para prompts e logging em produção (cada chamada de API registrada com entradas, saídas e pontuações).
Para as métricas por trás do scoring personalizado, consulte Métricas de avaliação de prompts: precisão, relevância, latência.
- Dashboards de experimentos compartilhados: todos os membros da equipe veem resultados de avaliação ao vivo
- Controle de acesso por funções: funções admin/membro/observador
- Versionamento de prompts mediante histórico de commits tipo Git
- Logging em produção: cada chamada de API registrada com entradas/saídas/pontuações
- Agente Loop: avaliador autônomo que gera casos de teste e itera sobre prompts (novo em 2026)
- Servidor MCP: integração direta com Claude Code e Cursor para avaliação a partir do IDE
- Certificação SOC 2 Type II para implantações enterprise
📌 Você sabia?
O tier gratuito do Braintrust inclui 1M spans de traces e 10K scores com usuários ilimitados — mais capacidade de avaliação do que a maioria das equipes usa nos primeiros 3 meses. Você pode executar um fluxo de trabalho completo de avaliação de prompts sem pagar nada.
⚠️ Complexidade das funções de scoring
Os scorers personalizados do Braintrust Pro requerem TypeScript ou Python. Se ninguém em sua equipe escreve funções de scoring, o principal diferencial do Braintrust é inutilizável. No entanto, o tier gratuito e o agente Loop reduzem essa barreira. Verifique a capacidade da equipe antes de se comprometer com o Pro.
PromptHub: controle de versões a $50–200/mês
PromptHub é uma plataforma de controle de versões e compartilhamento de prompts — as equipes armazenam prompts em uma biblioteca central, etiquetam versões e compartilham em toda a organização sem gerenciar planilhas ou mensagens no Slack. O mais fácil de integrar dos quatro.
Starter ~$50/mês; Pro ~$200/mês. Interface web para usuários não técnicos. Histórico de versões para cada prompt, etiquetas para organização, fluxos de implantação. Suporta as APIs da OpenAI, Anthropic e personalizadas. Contrapartida: sem scoring de avaliação personalizado; limitado a controles de qualidade integrados; não adequado para equipes que executam experimentos A/B ao vivo.
Vellum: divisão de tráfego em produção a $200–500/mês
Vellum é uma plataforma de implantação de prompts com A/B testing integrado que divide o tráfego real de produção entre variantes de prompts e mede a qualidade da saída no mundo real — ideal para equipes que executam recursos LLM ao vivo. Vellum é um plano de controle, não uma ferramenta de testes.
Starter $200/mês; Growth $500/mês; Enterprise personalizado. Encaminha o tráfego de produção por porcentagem entre variantes. A avaliação compara variantes em datasets de teste. Recursos para equipes: workspace compartilhado, revisões de prompts estilo PR, fluxos de aprovação de implantação. Contrapartida: a opção mais cara; exagerada para equipes pré-produção ou que ainda não gerenciam tráfego real de usuários.
Para entender quando o A/B testing adiciona valor vs a otimização manual, consulte Otimização manual vs automatizada de prompts.
Promptfoo: testes CI/CD open-source gratuito
Promptfoo é uma ferramenta CLI open-source que executa suites de testes de prompts automatizadas contra múltiplos LLMs — as equipes a integram em pipelines CI/CD para detectar regressões de prompts antes da implantação. Gratuito (licença MIT). Defina os casos de teste em YAML, faça commit ao Git e o Promptfoo os executa em cada PR.
Suporta 40+ provedores LLM. Integração com GitHub Actions disponível. Você fornece entradas, padrões de saída esperados e asserções personalizadas baseadas em LLM. Amigável para equipes: configurações de teste no Git, executadas em CI, sem conta nem faturas mensais. Contrapartida: sem interface; apenas para engenheiros; sem recursos de colaboração integrados além do Git.
prompts:
- "Summarize in 3 bullets: {{text}}"
providers:
- openai:gpt-5.5
- anthropic:claude-opus-4-7
tests:
- vars:
text: "Long document..."
assert:
- type: contains
value: "•"
- type: llm-rubric
value: "Exactly 3 bullets"💡 Promptfoo + GitHub Actions
As configurações de teste YAML do Promptfoo são commitadas diretamente ao Git. Em cada PR, o GitHub Actions executa a suite de testes contra todos os modelos configurados e bloqueia o merge se falhar. Sem custo mensal, integração CI/CD completa.
PromptQuorum: comparação multi-modelo antes da otimização
**Antes de se comprometer com Braintrust, Vellum, PromptHub ou Promptfoo para um fornecedor LLM específico, use PromptQuorum para despachar um prompt para 25+ modelos simultaneamente e ver qual funciona melhor — um primeiro passo agnóstico ao modelo.** Tier gratuito disponível.
Ao contrário das quatro ferramentas anteriores (que otimizam para um único modelo por vez), PromptQuorum responde "qual modelo lida melhor com este prompt?" em uma única execução. Após descobrir o modelo ótimo com PromptQuorum, encaminhe ao Braintrust para avaliação mais profunda, Vellum para A/B testing em produção ou Promptfoo para prevenção de regressões CI/CD.
- 25+ modelos incluindo GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro e modelos locais via Ollama e LM Studio
- 9 frameworks de prompts integrados — TRACE, CO-STAR, CRAFT e mais
- Comparação de respostas lado a lado com scoring por consenso
- Contagem de tokens por modelo — veja as diferenças de custo antes de se comprometer
- Tier gratuito — sem necessidade de configuração técnica
Frente a frente: as 4 ferramentas comparadas
Nenhuma ferramenta se destaca nos cinco critérios. Braintrust lidera em profundidade de avaliação; Vellum lidera em divisão de tráfego em produção; Promptfoo lidera em CI/CD gratuito; PromptHub lidera em simplicidade.
| Ferramenta | Uso principal | Colaboração | CI/CD | Preços | Ideal para |
|---|---|---|---|---|---|
| Braintrust | Avaliação de saída | ✅ Funções + dashboards | ✓ API + MCP | Gratuito / $249 Pro | Equipes focadas em qualidade |
| PromptHub | Controle de versões | ✅ Workspace de equipe | ✗ Nenhum | $50–200/mês | Equipes de conteúdo |
| Vellum | A/B em produção | ✅ Revisões PR | ✓ Webhooks | $200–500/mês | Recursos ao vivo |
| Promptfoo | Testes CI/CD | Baseado em Git | ✅ GitHub Actions | Gratuito | Equipes DevOps |
| PromptQuorum | Comparação multi-modelo | ✓ Workspace compartilhado | ✗ Nenhum | Gratuito + créditos | Seleção de modelo |
📌 Regra do stack de duas ferramentas
A maioria das equipes desperdiça dinheiro em 3–4 ferramentas. O stack ótimo são duas: uma para avaliação (Braintrust ou Promptfoo) e outra para implantação/versionamento (Vellum ou PromptHub). Gasto total: $250–700/mês em vez de $1.000+.
Seleção de ferramenta por tipo de equipe
Ajuste a ferramenta ao principal gargalo e à profundidade técnica da sua equipe.
Não use Braintrust se sua equipe não pode escrever funções de scoring personalizadas — ficará sem uso. Não use Vellum se ainda não tem usuários reais — compre depois de chegar à produção. Não use PromptHub sozinho se precisa medir a qualidade da saída — organiza prompts mas não pode pontuá-los.
Para o fluxo de trabalho completo de configuração da equipe incluindo propriedade e regras de revisão, consulte Configuração de prompt engineering para equipes pequenas.
- 1Equipes de engenharia com preocupações de qualidade → Braintrust
Why it matters: Projete funções de scoring personalizadas; execute avaliações reproduzíveis; meça o impacto das mudanças de prompt. - 2Equipes de conteúdo/marketing que precisam de controle de versões → PromptHub
Why it matters: Interface web simples; sem código necessário; biblioteca de prompts centralizada. - 3Equipes de produto com recursos LLM ao vivo → Vellum
Why it matters: A/B test em tráfego real; fluxos de aprovação; meça o impacto no mundo real. - 4Equipes DevOps/plataforma que previnem regressões → Promptfoo
Why it matters: Gratuito; baseado em YAML; integra com GitHub; detecta regressões em CI. - 5Todas as equipes (primeiro passo) → PromptQuorum
Why it matters: Compare seu prompt em 25+ modelos antes de se comprometer a otimizar para um fornecedor.
Erros comuns
❌ Comprar as quatro ferramentas para cobrir todas as bases
Why it hurts: O gasto total chega a $700+/mês; você mantém quatro sistemas; confusão da equipe sobre qual ferramenta usar para quê.
Fix: Escolha duas: uma para avaliação (Braintrust ou Promptfoo) e outra para implantação (Vellum ou PromptHub). Adicione PromptQuorum como primeiro passo gratuito.
❌ Não avaliar primeiro os tiers gratuitos
Why it hurts: Tanto Braintrust (1M traces, 10K scores gratuitos) quanto Promptfoo (completamente gratuito) oferecem capacidade suficiente para executar uma avaliação real antes de pagar. Equipes que pulam o tier gratuito desperdiçam o primeiro mês aprendendo o que deveriam ter medido.
Fix: Comece com Promptfoo (CLI gratuita) ou o tier gratuito do Braintrust. Construa seu dataset de avaliação. Defina suas métricas de qualidade. Só então avalie ferramentas pagas contra sua linha de base estabelecida.
❌ Escolher uma ferramenta por reputação de marca em vez de adequação ao fluxo de trabalho
Why it hurts: Você compra o Braintrust Pro mas sua equipe não é técnica e não pode escrever funções de scoring; ou compra o PromptHub quando seu gargalo real é medir a qualidade.
Fix: Identifique seu principal gargalo primeiro (avaliação, versionamento, A/B testing, prevenção de regressões) antes de avaliar ferramentas.
❌ Adotar uma ferramenta sem construir um dataset de avaliação
Why it hurts: Você se cadastra no Braintrust ou Vellum mas não tem pares rotulados de entrada/saída para pontuar. As ferramentas ficam sem uso; você não vê ROI.
Fix: Construa um conjunto de testes de 20–50 exemplos rotulados antes de pagar por qualquer plataforma. Use o tier gratuito do Braintrust ou Promptfoo (gratuito) para validar suas métricas primeiro.
❌ Usar Vellum sem uma métrica de qualidade
Why it hurts: Você faz A/B test de dois prompts em tráfego de produção mas não definiu "boa saída". A variante de vendas é encaminhada para usuários; ninguém pode explicar por quê.
Fix: Defina 3–5 critérios de qualidade e implemente-os como asserções (no Promptfoo) ou scorers personalizados (no Braintrust) antes de executar testes A/B.
Como escolher entre essas 4 ferramentas
- 1Identifique seu principal gargalo: é a qualidade da saída, o custo, a latência ou a velocidade da equipe?
- 2Avalie a profundidade técnica: equipe não técnica → PromptHub; mista → Braintrust + Vellum; altamente técnica → Promptfoo.
- 3Construa um dataset de avaliação rotulado (20–50 pares entrada/saída) antes de avaliar qualquer ferramenta paga.
- 4Comece com uma ferramenta gratuita (Promptfoo ou PromptQuorum) para estabelecer métricas de linha de base.
- 5Execute um teste de 2 semanas com os prompts reais da equipe antes de se comprometer com uma plataforma SaaS.
- 6Planeje para duas ferramentas: uma para avaliação e outra para implantação/versionamento.
💡 Dica profissional: construa primeiro um dataset de testes
Construa um conjunto de testes de 20–50 pares rotulados de entrada/saída ANTES de avaliar qualquer ferramenta paga. Sem um dataset de linha de base, você não pode medir se a ferramenta realmente melhora seus prompts — você está apenas pagando por um dashboard sem dados. Use o tier gratuito do Braintrust ou Promptfoo (gratuito) para validar suas métricas primeiro.
💡 Primeiro gratuito, depois pago
Comece com Promptfoo (gratuito) + PromptQuorum (tier gratuito) para estabelecer linhas de base. Só adicione Braintrust Pro ou Vellum depois de ter 20+ casos de teste rotulados e uma métrica de qualidade definida. Ferramentas pagas sem linhas de base = orçamento desperdiçado.
FAQ
Qual é a principal diferença entre Braintrust e PromptHub?
Braintrust é uma plataforma de avaliação: você registra chamadas de API, define funções de scoring personalizadas e executa experimentos A/B para medir a qualidade da saída. PromptHub é um sistema de controle de versões: você armazena prompts em uma biblioteca, etiqueta versões e compartilha com a equipe. Use Braintrust quando seu gargalo for medir a qualidade; use PromptHub quando seu gargalo for organizar prompts.
O Promptfoo é realmente gratuito?
Sim. Promptfoo é open-source (licença MIT) e não tem tier pago. Você o executa como ferramenta CLI em sua própria infraestrutura ou no GitHub Actions. Sem taxas mensais, limites de chamadas de API ou restrições freemium.
Devo escolher Braintrust ou Vellum?
Escolha Braintrust se seu objetivo principal é medir e melhorar a qualidade da saída com métricas personalizadas. Escolha Vellum se seu objetivo principal é A/B testing em tráfego real de produção. Braintrust funciona melhor pré-produção; Vellum funciona melhor com usuários reais.
Quanto mais caro é Vellum do que Braintrust?
Braintrust Pro é $249/mês (também há tier gratuito com 1M spans + 10K scores). Vellum Starter é $200/mês; Growth é $500/mês. No nível Pro, Braintrust é ligeiramente mais caro que o Vellum Starter mas inclui significativamente mais capacidade de avaliação. Ambos têm pontos de entrada gratuitos ou de baixo custo. Promptfoo é gratuito; PromptHub é $50–200/mês.
Como integro Promptfoo com GitHub Actions?
Promptfoo fornece um modelo de GitHub Actions. Defina seus casos de teste em YAML, faça commit da configuração ao Git e use a promptfoo-github-action oficial no seu arquivo de fluxo de trabalho. Em cada PR, Promptfoo executa seus testes contra todos os modelos configurados e reporta o status de pass/fail.
O PromptHub pode substituir o Braintrust?
Não. PromptHub armazena e versiona prompts. Braintrust avalia e pontua prompts. Você pode usar PromptHub sozinho se sua única necessidade é organizar prompts; não pode usá-lo sozinho se precisar medir a qualidade da saída ou executar experimentos.
O Vellum é o mesmo que uma plataforma de gerenciamento de prompts?
Não. Vellum é uma plataforma de implantação e A/B testing. Inclui controle básico de versões, mas sua principal força é dividir o tráfego de produção entre variantes de prompts e medir o impacto no mundo real. As verdadeiras ferramentas de gerenciamento de prompts (PromptHub) se concentram em organizar e compartilhar prompts, não em testá-los.
Existem alternativas além dessas 4 ferramentas em 2026?
Sim. O mercado de avaliação de prompts se expandiu significativamente em 2025–2026. Confident AI oferece 50+ métricas de avaliação integradas a $19,99–49,99/seat/mês com custos de tracing mais baixos que o Braintrust ($1/GB vs $3/GB). Galileo AI fornece guardrails em tempo de execução via seus modelos de avaliação Luna-2 ($100+/mês). Arize Phoenix é uma plataforma de observabilidade LLM gratuita e open-source. Para a maioria das equipes, as quatro ferramentas desta comparativa mais Confident AI cobrem todas as necessidades práticas.
Leitura relacionada
- GPT, Claude ou Gemini? Como escolher o modelo certo — Escolha o modelo certo antes de escolher a ferramenta de avaliação certa
- Melhores ferramentas de otimização de prompts para equipes: rankings 2026 — compara sete ferramentas incluindo Helicone e DSPy
- Como avaliar a qualidade de prompts sistematicamente — frameworks para medir saídas
- Prompt Chaining — Fluxos de trabalho de múltiplas etapas que mais se beneficiam da avaliação sistemática
- Otimização manual vs automatizada de prompts — quando ajustar manualmente vs automatizar
- Métricas de avaliação de prompts: precisão, relevância, latência — métricas de qualidade específicas para LLMs
- Qwen vs Llama vs Mistral — Promptfoo se destaca na comparação direta de famílias de modelos locais
Fontes
- Braintrust — Plataforma de Avaliação de IA — documentação oficial; base para as afirmações sobre o agente Loop, integração MCP, certificação SOC 2 e preços do plano Pro a $249/mês (reestruturado em março de 2026)
- PromptHub — Controle de Versões de Prompts — homepage do produto; base para as afirmações de controle de versões, interface web e preços $50–200/mês
- Vellum — Implantação e A/B Testing de LLM — visão geral do produto e página de preços; base para as afirmações de divisão de tráfego, fluxo de aprovação e preços $200–500/mês
- Promptfoo — Testes de Prompts Open-Source — repositório GitHub e documentação; base para as afirmações de licença MIT, configuração YAML e integração GitHub Actions
- PromptQuorum — Despacho Multi-Modelo — ferramenta de comparação multi-modelo; base para as afirmações de despacho para 25+ modelos e comparação multi-modelo
- Confident AI — Plataforma de avaliação emergente com 50+ métricas integradas a $19,99–49,99/seat/mês
- Galileo AI — Modelos de avaliação Luna-2 e guardrails em tempo de execução para aplicações LLM
- Arize Phoenix — Plataforma de observabilidade LLM open-source para tracing e avaliação