O que são métricas de avaliação de prompts?
📍 In One Sentence
Métricas de avaliação de prompts são sinais quantitativos que medem se um prompt produz de forma confiável a saída esperada em um conjunto de teste representativo.
💬 In Plain Terms
Pense nelas como testes unitários para IA: você define o que é "correto", executa o prompt em 20+ exemplos e pontua o pass rate. Uma pontuação de 95% significa que 5% das solicitações reais de usuários ainda falharão.
As métricas de avaliação de prompts são sinais quantitativos que dizem se um prompt produz de forma confiável a saída esperada nas entradas que importam. Sem métricas, a avaliação de prompts é subjetiva. A métrica correta depende do que seu prompt deve produzir. Quando você escolhe a métrica correta para sua tarefa, pode avaliar a qualidade do prompt de forma sistemática.
💡 Dica profissional
Comece com o pass rate antes de adicionar métricas complexas. O correto/incorreto binário muitas vezes é mais útil do que uma rubrica de 1–5.
Quais métricas se aplicam a saídas estruturadas vs texto livre vs código?
O tipo de saída determina qual métrica é válida. Usar BLEU em saídas JSON ou pass/fail em tarefas de geração criativa produz pontuações sem sentido.
| Tipo de saída | Métrica recomendada | Por quê |
|---|---|---|
| JSON / dados estruturados | Pass/fail binário | Ou válido + correto, ou não. Sem crédito parcial. |
| Classificação | Precisão (binária) | Um rótulo correto por entrada. |
| Tradução / resumo | BLEU ou ROUGE | Texto de referência disponível para comparar. |
| Paráfrase / reescrita | Similaridade semântica | Preserva o significado, não as palavras exatas. |
| Texto livre / criativo | LLM-as-judge | Rubrica matizada necessária, sem texto de referência. |
| Geração de código | Taxa de sucesso de testes | Execute testes unitários contra o código gerado. |
📌 Ponto-chave
O tipo de saída orienta a escolha da métrica. O erro mais comum é aplicar BLEU a tarefas que não são de tradução — ele mede sobreposição de palavras, não conformidade de formato.
O que é o pass rate e por que é a métrica mais útil?
O pass rate é a porcentagem de entradas de teste onde a saída do prompt atende aos critérios de sucesso definidos — e é a métrica mais útil porque mapeia diretamente para a taxa de falhas em produção. Um pass rate de 92% significa que 8% das solicitações reais de usuários falharão.
Pass rate = saídas que passam / total de casos de teste
Para saídas estruturadas, defina "passar" com precisão antes de executar os testes: JSON válido, campos obrigatórios presentes, valores dentro do enum permitido, comprimento abaixo do limite especificado.
Rastreie o pass rate por versão de prompt. Uma queda de mais de 5 pontos percentuais é uma regressão. Uma queda de mais de 10 pontos deve bloquear a implantação em produção.
⚠️ Atenção
Um pass rate de 90% significa que 10% das solicitações reais de usuários falharão. Defina seu limiar de regressão com base na tolerância ao risco de produção, não no que parece bom em um dashboard.
O que é a pontuação BLEU e quando você deve usá-la?
A pontuação BLEU (Bilingual Evaluation Understudy) mede a sobreposição de n-gramas entre uma saída do modelo e um texto de referência. É a métrica padrão para tradução automática e é apropriada para qualquer tarefa onde a saída deve corresponder estreitamente a uma referência.
BLEU é enganoso para:
- Saída JSON ou estruturada: BLEU pontua os tokens de formatação, não a correção semântica
- Seguimento de instruções: Um prompt que segue todas as instruções mas parafraseia diferente pontuará baixo em BLEU
- Geração criativa: BLEU penaliza a variedade lexical mesmo quando a qualidade é alta
Quando BLEU é apropriado: tarefas de tradução onde existe uma referência de ouro, resumo frente a um resumo escrito por humanos, perguntas e respostas extrativas com respostas verbatim esperadas.
🔍 Você sabia?
BLEU foi projetado em 2002 para tradução automática. Tem limitações conhecidas para geração aberta, mas continua sendo o padrão para benchmarks de MT.
O que é a pontuação de similaridade semântica?
A similaridade semântica mede quão próximos dois textos estão em significado calculando a similaridade cosseno de seus embeddings. Supera o BLEU para tarefas de paráfrase e reescrita porque captura o significado em vez da escolha de palavras.
Como funciona: embed a saída do modelo e a referência usando text-embedding-3-small da OpenAI ou um modelo de embedding local, depois calcule a similaridade cosseno. Pontuações acima de 0,85 geralmente indicam conteúdo semanticamente equivalente.
Limitações: a similaridade semântica não verifica a exatidão factual, não detecta violações de formato e pode pontuar alto conteúdo alucinado se a alucinação for semanticamente similar à resposta esperada.
💡 Dica profissional
text-embedding-3-small da OpenAI é o modelo mais rápido e econômico para pontuação de similaridade. Para conteúdo técnico/código, considere um modelo de embedding específico para código.
O que é avaliação LLM-as-judge?
LLM-as-judge usa um modelo capaz — tipicamente GPT-5.5 ou Claude Opus 4.8 — para pontuar saídas contra uma rubrica. Isso escala a avaliação para milhares de casos de teste sem revisão humana e lida com dimensões de qualidade que métricas binárias não conseguem capturar: coerência, tom, completude e exatidão factual.
| Dimensão | Vantagem | Limitação |
|---|---|---|
| Escala | Milhares de casos por hora | O custo da API aumenta com o volume |
| Matiz | Lida com rubricas complexas | Viés do modelo em direção ao seu próprio estilo de saída |
| Consistência | Pontuação reproduzível | Sensível à redação do prompt do juiz |
| Custo | Mais econômico que revisão humana em escala | Caro para conjuntos de teste pequenos |
⚠️ Atenção
LLM-as-judge tem viés próprio: modelos pontuam mais alto saídas similares ao seu próprio estilo. Use um modelo diferente como juiz do que o que gera as saídas.
❌ Rubrica vaga
Avalie a qualidade desta saída em uma escala de 1 a 5.
✅ Rubrica multi-dimensional explícita
Pontue esta saída em 3 dimensões (1–3 cada): (1) Exatidão factual — corresponde aos fatos de referência? (2) Completude — todos os campos obrigatórios são abordados? (3) Tom — é apropriadamente profissional? Retorne JSON: {"accuracy": X, "completeness": X, "tone": X, "total": X, "reason": "..."}
Como você detecta regressão de métricas?
Rastreie sua métrica principal por versão de prompt e alerte quando cair mais de 5 pontos percentuais desde a linha de base estabelecida. Execute o mesmo conjunto de teste antes e depois de cada alteração de prompt, atualização de modelo ou ajuste de temperature.
Siga este fluxo de trabalho:
1. Registre a pontuação da métrica atual como linha de base (por exemplo, pass rate = 91%) 2. Faça a alteração de prompt 3. Execute novamente o conjunto de teste completo 4. Compare a nova pontuação com a linha de base 5. Se a queda > 5 pontos: bloqueie a alteração, investigue, corrija
Para detecção de regressão automatizada em CI/CD, ferramentas como Promptfoo se integram com GitHub Actions e podem reprovar um PR se o pass rate cair abaixo de um limiar.
🛠️ Boa prática
Integre Promptfoo com GitHub Actions para reprovar automaticamente PRs quando o pass rate cair abaixo do limiar. Isso evita que regressões de prompts cheguem à produção.
Como começar a medir as métricas de avaliação de prompts
- 1Identifique seu tipo de saída de prompt: dados estruturados, classificação, tradução/resumo, paráfrase, texto livre ou código.
- 2Selecione a métrica apropriada: pass/fail binário para estruturado, BLEU para tradução/resumo, similaridade semântica para paráfrase, LLM-as-judge para texto livre, taxa de sucesso de testes para código.
- 3Construa um conjunto de teste de 20+ entradas com saídas esperadas ou critérios de sucesso escritos antes de executar qualquer teste.
- 4Execute o conjunto de teste e registre sua pontuação de métrica de linha de base.
- 5Defina um limiar de alerta de regressão: alerte se o pass rate cair 5+ pontos desde a linha de base.
- 6Execute a métrica automaticamente em cada alteração de prompt usando Promptfoo, Braintrust ou PromptQuorum.
📌 Ponto-chave
Construa seu conjunto de teste antes de escrever o prompt, não depois. Casos de teste definidos após o fato tendem a coincidir com o prompt atual em vez da distribuição real de entradas.
Quais erros você deve evitar com métricas de avaliação de prompts?
- Erro: usar BLEU em JSON ou seguimento de instruções. Solução: BLEU mede sobreposição de n-gramas, não conformidade de formato ou seguimento de instruções. Use pass/fail binário para saídas estruturadas.
- Erro: LLM-as-judge com rubrica de avaliação vaga. Solução: o prompt do juiz deve definir explicitamente cada nível de pontuação. Rubricas vagas como "avalie a qualidade de 1 a 5" produzem pontuações inconsistentes sem valor diagnóstico.
- Erro: sem linha de base antes da primeira alteração. Solução: registre o valor da métrica antes de fazer alterações. Sem uma linha de base, você não consegue detectar regressões.
- Erro: medir apenas uma métrica. Solução: prompts de produção tipicamente precisam de uma métrica primária (pass rate ou precisão) e uma secundária (similaridade semântica ou LLM-as-judge) para detectar diferentes modos de falha.
Leituras relacionadas
- Como avaliar a qualidade dos prompts — Framework de três componentes: precisão, consistência, taxa de seguimento
- Teste prompts entre modelos — Execute o mesmo conjunto de teste no GPT-5.5, Claude e Gemini
- Auditoria de prompts e risco de regressão — Suites de regressão automatizadas e gates de CI/CD
- Braintrust vs Prompthub vs Vellum — Comparação de plataformas de avaliação de prompts dedicadas para equipes
- Melhores ferramentas de teste e avaliação de prompts 2026 — Ferramentas avaliadas para QA sistemática de prompts
- Como construir uma biblioteca de prompts — Versione e organize prompts junto com suas linhas de base de avaliação
Perguntas frequentes
O que são métricas de avaliação de prompts?
Métricas de avaliação de prompts são sinais quantitativos que medem se um prompt produz a saída esperada de forma confiável. As métricas-chave incluem pass rate (correto/incorreto binário), BLEU (sobreposição de n-gramas para tradução e resumo), similaridade semântica (similaridade cosseno de embeddings) e LLM-as-judge (rubrica de qualidade para texto livre). Escolher a métrica errada produz pontuações enganosas.
O que é o pass rate na avaliação de prompts?
O pass rate é a porcentagem de entradas de teste onde a saída do prompt atende aos critérios de sucesso definidos. Ele mapeia diretamente para a taxa de falhas em produção e é a métrica mais útil para prompts de saída estruturada.
Quando você deve usar a pontuação BLEU para prompts?
BLEU é apropriado para tarefas de tradução e resumo onde a saída deve corresponder estreitamente a um texto de referência. É enganoso para geração de JSON, seguimento de instruções e escrita criativa.
O que é avaliação LLM-as-judge?
LLM-as-judge usa GPT-5.5 ou Claude Opus 4.8 para pontuar saídas contra uma rubrica em escala. Lida com dimensões de qualidade matizadas que métricas binárias não conseguem capturar. O principal risco é o viés do modelo em direção ao seu próprio estilo de saída.
Como você detecta regressão de métricas de prompts?
Rastreie sua métrica principal por versão de prompt e alerte quando cair mais de 5 pontos percentuais desde a linha de base. Execute o mesmo conjunto de teste antes e depois de cada alteração. Uma queda de mais de 10 pontos é uma regressão crítica.
Qual métrica devo usar para prompts de saída JSON?
Use pass/fail binário. Defina "passar" como: JSON válido + campos obrigatórios presentes + valores dentro do intervalo permitido. BLEU e similaridade semântica não fazem sentido para saídas estruturadas.
Você pode combinar múltiplas métricas de avaliação de prompts?
Sim — prompts de produção tipicamente precisam de uma métrica primária e uma secundária para detectar diferentes modos de falha. Rastreie ambas de forma independente e alerte se qualquer uma cair abaixo do limiar.
Como você avalia a qualidade do prompt para geração de código?
Use a taxa de sucesso de testes como métrica principal — gere código, execute testes unitários contra ele e calcule a porcentagem que passa. Complemente com pontuações de análise estática para uma imagem mais completa da qualidade.
Devo considerar regulamentações ao usar métricas de avaliação de prompts?
Sim. No Brasil, a LGPD (Lei Geral de Proteção de Dados) regulamentada pela ANPD exige que sistemas de IA de alto risco documentem práticas de qualidade. Os registros de avaliação de prompts — conjuntos de teste, pass rates, linhas de base de regressão — fornecem evidências prontas para auditoria.
Quais métricas de avaliação de prompts são adequadas para empresas médias?
Pass rate para processamento de documentos (por exemplo, extração de notas fiscais), LLM-as-judge para qualidade do atendimento ao cliente. Os gates de regressão CI/CD fornecem evidências de rastreabilidade para auditoria. Um limiar de pass rate de 95% para documentos críticos é um objetivo razoável.
Quais fatores regionais influenciam os requisitos de avaliação de prompts?
Os frameworks regulatórios exigem cada vez mais métricas de qualidade de IA documentadas, com requisitos específicos por jurisdição e classificação de riscos.
- Brasil (LGPD/ANPD): A Lei Geral de Proteção de Dados e a Autoridade Nacional de Proteção de Dados definem as regras de conformidade para dados usados em sistemas de IA. Os registros de avaliação de prompts — conjuntos de teste, pass rates, linhas de base de regressão — fornecem evidências prontas para auditoria.
- EUA (SOC 2 / NIST AI RMF): As auditorias SOC 2 Type II esperam QA documentada para processos impulsionados por IA. Métricas de avaliação de prompts com histórico de versões satisfazem os requisitos de auditoria de gestão de mudanças.
- Avaliação multilíngue: Se você implanta prompts em múltiplos idiomas, avalie cada variante de idioma separadamente. As pontuações BLEU e os limiares de similaridade semântica diferem significativamente entre pares de idiomas.
Fontes
- Documentação do Promptfoo (promptfoo.dev) — Framework de avaliação de prompts open-source com métricas integradas incluindo LLM-as-judge
- Guia de avaliação do Braintrust (braintrust.dev) — Plataforma de avaliação de produção com suporte a pass rate, LLM-as-judge e pontuação personalizada
- Papineni et al., 2002. "BLEU: a Method for Automatic Evaluation of Machine Translation" — Artigo original do BLEU
- DeepEval: Open-Source LLM Evaluation Framework (github.com/confident-ai/deepeval) — Confident AI, 2024–2025. Suporta pass rate, detecção de alucinações e métricas LLM-as-judge com integração CI/CD.
- The Prompt Report: A Systematic Survey of Prompting Techniques (arXiv:2406.06608) — Schulhoff et al., 2024. Revisão abrangente incluindo metodologia de avaliação e seleção de métricas para prompt engineering.