Skip to main content
PromptQuorumPromptQuorum
Início/Prompt Engineering/Métricas de avaliação de prompts: o que medir e como
Techniques

Métricas de avaliação de prompts: o que medir e como

·8 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Escolher a métrica de avaliação errada para seu prompt produz resultados enganosos que ocultam falhas reais em produção. As pontuações BLEU não fazem sentido para saídas JSON. O pass/fail binário não diz nada sobre a qualidade matizada da geração. A métrica que funciona depende completamente do que seu prompt produz.

As métricas de avaliação de prompts são sinais quantitativos que medem se um prompt produz de forma confiável a saída esperada. A métrica correta depende do tipo de saída: pass rate para dados estruturados, BLEU para tradução, similaridade semântica para tarefas de paráfrase e LLM-as-judge para geração de texto livre matizada.

Key Takeaways

  • O pass rate (saídas corretas / total) é a métrica mais útil para prompts de produção com saídas estruturadas
  • A pontuação BLEU mede a sobreposição de n-gramas e só faz sentido para tarefas de tradução e resumo
  • A similaridade semântica (similaridade cosseno de embeddings) supera o BLEU para tarefas de paráfrase e reescrita
  • LLM-as-judge usa GPT-5.5 ou Claude Opus 4.8 para pontuar saídas de texto livre matizadas em escala
  • Rastreie o pass rate por versão de prompt e alerte com quedas de mais de 5 pontos percentuais
  • Nenhuma métrica única cobre todos os tipos de saída — escolha com base no formato de saída esperado do seu prompt

⚡ Quick Facts

  • ·O pass rate mapeia diretamente para a taxa de falhas em produção: 90% = 10% das solicitações falham
  • ·A pontuação BLEU foi projetada em 2002 para tradução automática, não para saída de IA em geral
  • ·Similaridade semântica acima de 0,85 geralmente indica conteúdo semanticamente equivalente
  • ·LLM-as-judge escala para milhares de avaliações por hora
  • ·Uma queda de 5 pontos no pass rate é o limiar padrão de alerta de regressão
  • ·Os modelos GPT-5.5 e Claude podem diferir entre 10 e 20 pontos no mesmo conjunto de teste de prompts

O que são métricas de avaliação de prompts?

📍 In One Sentence

Métricas de avaliação de prompts são sinais quantitativos que medem se um prompt produz de forma confiável a saída esperada em um conjunto de teste representativo.

💬 In Plain Terms

Pense nelas como testes unitários para IA: você define o que é "correto", executa o prompt em 20+ exemplos e pontua o pass rate. Uma pontuação de 95% significa que 5% das solicitações reais de usuários ainda falharão.

As métricas de avaliação de prompts são sinais quantitativos que dizem se um prompt produz de forma confiável a saída esperada nas entradas que importam. Sem métricas, a avaliação de prompts é subjetiva. A métrica correta depende do que seu prompt deve produzir. Quando você escolhe a métrica correta para sua tarefa, pode avaliar a qualidade do prompt de forma sistemática.

💡 Dica profissional

Comece com o pass rate antes de adicionar métricas complexas. O correto/incorreto binário muitas vezes é mais útil do que uma rubrica de 1–5.

Quais métricas se aplicam a saídas estruturadas vs texto livre vs código?

O tipo de saída determina qual métrica é válida. Usar BLEU em saídas JSON ou pass/fail em tarefas de geração criativa produz pontuações sem sentido.

Tipo de saídaMétrica recomendadaPor quê
JSON / dados estruturadosPass/fail binárioOu válido + correto, ou não. Sem crédito parcial.
ClassificaçãoPrecisão (binária)Um rótulo correto por entrada.
Tradução / resumoBLEU ou ROUGETexto de referência disponível para comparar.
Paráfrase / reescritaSimilaridade semânticaPreserva o significado, não as palavras exatas.
Texto livre / criativoLLM-as-judgeRubrica matizada necessária, sem texto de referência.
Geração de códigoTaxa de sucesso de testesExecute testes unitários contra o código gerado.

📌 Ponto-chave

O tipo de saída orienta a escolha da métrica. O erro mais comum é aplicar BLEU a tarefas que não são de tradução — ele mede sobreposição de palavras, não conformidade de formato.

O que é o pass rate e por que é a métrica mais útil?

O pass rate é a porcentagem de entradas de teste onde a saída do prompt atende aos critérios de sucesso definidos — e é a métrica mais útil porque mapeia diretamente para a taxa de falhas em produção. Um pass rate de 92% significa que 8% das solicitações reais de usuários falharão.

Pass rate = saídas que passam / total de casos de teste

Para saídas estruturadas, defina "passar" com precisão antes de executar os testes: JSON válido, campos obrigatórios presentes, valores dentro do enum permitido, comprimento abaixo do limite especificado.

Rastreie o pass rate por versão de prompt. Uma queda de mais de 5 pontos percentuais é uma regressão. Uma queda de mais de 10 pontos deve bloquear a implantação em produção.

⚠️ Atenção

Um pass rate de 90% significa que 10% das solicitações reais de usuários falharão. Defina seu limiar de regressão com base na tolerância ao risco de produção, não no que parece bom em um dashboard.

O que é a pontuação BLEU e quando você deve usá-la?

A pontuação BLEU (Bilingual Evaluation Understudy) mede a sobreposição de n-gramas entre uma saída do modelo e um texto de referência. É a métrica padrão para tradução automática e é apropriada para qualquer tarefa onde a saída deve corresponder estreitamente a uma referência.

BLEU é enganoso para:

  • Saída JSON ou estruturada: BLEU pontua os tokens de formatação, não a correção semântica
  • Seguimento de instruções: Um prompt que segue todas as instruções mas parafraseia diferente pontuará baixo em BLEU
  • Geração criativa: BLEU penaliza a variedade lexical mesmo quando a qualidade é alta

Quando BLEU é apropriado: tarefas de tradução onde existe uma referência de ouro, resumo frente a um resumo escrito por humanos, perguntas e respostas extrativas com respostas verbatim esperadas.

🔍 Você sabia?

BLEU foi projetado em 2002 para tradução automática. Tem limitações conhecidas para geração aberta, mas continua sendo o padrão para benchmarks de MT.

O que é a pontuação de similaridade semântica?

A similaridade semântica mede quão próximos dois textos estão em significado calculando a similaridade cosseno de seus embeddings. Supera o BLEU para tarefas de paráfrase e reescrita porque captura o significado em vez da escolha de palavras.

Como funciona: embed a saída do modelo e a referência usando text-embedding-3-small da OpenAI ou um modelo de embedding local, depois calcule a similaridade cosseno. Pontuações acima de 0,85 geralmente indicam conteúdo semanticamente equivalente.

Limitações: a similaridade semântica não verifica a exatidão factual, não detecta violações de formato e pode pontuar alto conteúdo alucinado se a alucinação for semanticamente similar à resposta esperada.

💡 Dica profissional

text-embedding-3-small da OpenAI é o modelo mais rápido e econômico para pontuação de similaridade. Para conteúdo técnico/código, considere um modelo de embedding específico para código.

O que é avaliação LLM-as-judge?

LLM-as-judge usa um modelo capaz — tipicamente GPT-5.5 ou Claude Opus 4.8 — para pontuar saídas contra uma rubrica. Isso escala a avaliação para milhares de casos de teste sem revisão humana e lida com dimensões de qualidade que métricas binárias não conseguem capturar: coerência, tom, completude e exatidão factual.

DimensãoVantagemLimitação
EscalaMilhares de casos por horaO custo da API aumenta com o volume
MatizLida com rubricas complexasViés do modelo em direção ao seu próprio estilo de saída
ConsistênciaPontuação reproduzívelSensível à redação do prompt do juiz
CustoMais econômico que revisão humana em escalaCaro para conjuntos de teste pequenos

⚠️ Atenção

LLM-as-judge tem viés próprio: modelos pontuam mais alto saídas similares ao seu próprio estilo. Use um modelo diferente como juiz do que o que gera as saídas.

Rubrica vaga

Avalie a qualidade desta saída em uma escala de 1 a 5.

Rubrica multi-dimensional explícita

Pontue esta saída em 3 dimensões (1–3 cada): (1) Exatidão factual — corresponde aos fatos de referência? (2) Completude — todos os campos obrigatórios são abordados? (3) Tom — é apropriadamente profissional? Retorne JSON: {"accuracy": X, "completeness": X, "tone": X, "total": X, "reason": "..."}

Como você detecta regressão de métricas?

Rastreie sua métrica principal por versão de prompt e alerte quando cair mais de 5 pontos percentuais desde a linha de base estabelecida. Execute o mesmo conjunto de teste antes e depois de cada alteração de prompt, atualização de modelo ou ajuste de temperature.

Siga este fluxo de trabalho:

1. Registre a pontuação da métrica atual como linha de base (por exemplo, pass rate = 91%) 2. Faça a alteração de prompt 3. Execute novamente o conjunto de teste completo 4. Compare a nova pontuação com a linha de base 5. Se a queda > 5 pontos: bloqueie a alteração, investigue, corrija

Para detecção de regressão automatizada em CI/CD, ferramentas como Promptfoo se integram com GitHub Actions e podem reprovar um PR se o pass rate cair abaixo de um limiar.

🛠️ Boa prática

Integre Promptfoo com GitHub Actions para reprovar automaticamente PRs quando o pass rate cair abaixo do limiar. Isso evita que regressões de prompts cheguem à produção.

Como começar a medir as métricas de avaliação de prompts

  1. 1
    Identifique seu tipo de saída de prompt: dados estruturados, classificação, tradução/resumo, paráfrase, texto livre ou código.
  2. 2
    Selecione a métrica apropriada: pass/fail binário para estruturado, BLEU para tradução/resumo, similaridade semântica para paráfrase, LLM-as-judge para texto livre, taxa de sucesso de testes para código.
  3. 3
    Construa um conjunto de teste de 20+ entradas com saídas esperadas ou critérios de sucesso escritos antes de executar qualquer teste.
  4. 4
    Execute o conjunto de teste e registre sua pontuação de métrica de linha de base.
  5. 5
    Defina um limiar de alerta de regressão: alerte se o pass rate cair 5+ pontos desde a linha de base.
  6. 6
    Execute a métrica automaticamente em cada alteração de prompt usando Promptfoo, Braintrust ou PromptQuorum.

📌 Ponto-chave

Construa seu conjunto de teste antes de escrever o prompt, não depois. Casos de teste definidos após o fato tendem a coincidir com o prompt atual em vez da distribuição real de entradas.

Quais erros você deve evitar com métricas de avaliação de prompts?

  • Erro: usar BLEU em JSON ou seguimento de instruções. Solução: BLEU mede sobreposição de n-gramas, não conformidade de formato ou seguimento de instruções. Use pass/fail binário para saídas estruturadas.
  • Erro: LLM-as-judge com rubrica de avaliação vaga. Solução: o prompt do juiz deve definir explicitamente cada nível de pontuação. Rubricas vagas como "avalie a qualidade de 1 a 5" produzem pontuações inconsistentes sem valor diagnóstico.
  • Erro: sem linha de base antes da primeira alteração. Solução: registre o valor da métrica antes de fazer alterações. Sem uma linha de base, você não consegue detectar regressões.
  • Erro: medir apenas uma métrica. Solução: prompts de produção tipicamente precisam de uma métrica primária (pass rate ou precisão) e uma secundária (similaridade semântica ou LLM-as-judge) para detectar diferentes modos de falha.

Leituras relacionadas

Perguntas frequentes

O que são métricas de avaliação de prompts?

Métricas de avaliação de prompts são sinais quantitativos que medem se um prompt produz a saída esperada de forma confiável. As métricas-chave incluem pass rate (correto/incorreto binário), BLEU (sobreposição de n-gramas para tradução e resumo), similaridade semântica (similaridade cosseno de embeddings) e LLM-as-judge (rubrica de qualidade para texto livre). Escolher a métrica errada produz pontuações enganosas.

O que é o pass rate na avaliação de prompts?

O pass rate é a porcentagem de entradas de teste onde a saída do prompt atende aos critérios de sucesso definidos. Ele mapeia diretamente para a taxa de falhas em produção e é a métrica mais útil para prompts de saída estruturada.

Quando você deve usar a pontuação BLEU para prompts?

BLEU é apropriado para tarefas de tradução e resumo onde a saída deve corresponder estreitamente a um texto de referência. É enganoso para geração de JSON, seguimento de instruções e escrita criativa.

O que é avaliação LLM-as-judge?

LLM-as-judge usa GPT-5.5 ou Claude Opus 4.8 para pontuar saídas contra uma rubrica em escala. Lida com dimensões de qualidade matizadas que métricas binárias não conseguem capturar. O principal risco é o viés do modelo em direção ao seu próprio estilo de saída.

Como você detecta regressão de métricas de prompts?

Rastreie sua métrica principal por versão de prompt e alerte quando cair mais de 5 pontos percentuais desde a linha de base. Execute o mesmo conjunto de teste antes e depois de cada alteração. Uma queda de mais de 10 pontos é uma regressão crítica.

Qual métrica devo usar para prompts de saída JSON?

Use pass/fail binário. Defina "passar" como: JSON válido + campos obrigatórios presentes + valores dentro do intervalo permitido. BLEU e similaridade semântica não fazem sentido para saídas estruturadas.

Você pode combinar múltiplas métricas de avaliação de prompts?

Sim — prompts de produção tipicamente precisam de uma métrica primária e uma secundária para detectar diferentes modos de falha. Rastreie ambas de forma independente e alerte se qualquer uma cair abaixo do limiar.

Como você avalia a qualidade do prompt para geração de código?

Use a taxa de sucesso de testes como métrica principal — gere código, execute testes unitários contra ele e calcule a porcentagem que passa. Complemente com pontuações de análise estática para uma imagem mais completa da qualidade.

Devo considerar regulamentações ao usar métricas de avaliação de prompts?

Sim. No Brasil, a LGPD (Lei Geral de Proteção de Dados) regulamentada pela ANPD exige que sistemas de IA de alto risco documentem práticas de qualidade. Os registros de avaliação de prompts — conjuntos de teste, pass rates, linhas de base de regressão — fornecem evidências prontas para auditoria.

Quais métricas de avaliação de prompts são adequadas para empresas médias?

Pass rate para processamento de documentos (por exemplo, extração de notas fiscais), LLM-as-judge para qualidade do atendimento ao cliente. Os gates de regressão CI/CD fornecem evidências de rastreabilidade para auditoria. Um limiar de pass rate de 95% para documentos críticos é um objetivo razoável.

Quais fatores regionais influenciam os requisitos de avaliação de prompts?

Os frameworks regulatórios exigem cada vez mais métricas de qualidade de IA documentadas, com requisitos específicos por jurisdição e classificação de riscos.

  • Brasil (LGPD/ANPD): A Lei Geral de Proteção de Dados e a Autoridade Nacional de Proteção de Dados definem as regras de conformidade para dados usados em sistemas de IA. Os registros de avaliação de prompts — conjuntos de teste, pass rates, linhas de base de regressão — fornecem evidências prontas para auditoria.
  • EUA (SOC 2 / NIST AI RMF): As auditorias SOC 2 Type II esperam QA documentada para processos impulsionados por IA. Métricas de avaliação de prompts com histórico de versões satisfazem os requisitos de auditoria de gestão de mudanças.
  • Avaliação multilíngue: Se você implanta prompts em múltiplos idiomas, avalie cada variante de idioma separadamente. As pontuações BLEU e os limiares de similaridade semântica diferem significativamente entre pares de idiomas.

Fontes

Apply these techniques across 25+ AI models simultaneously with PromptQuorum.

Try PromptQuorum free →

← Back to Prompt Engineering

Métricas de avaliação de prompts: Pass Rate, BLEU e mais