Skip to main content
PromptQuorumPromptQuorum
Início/Prompt Engineering/Self-Consistency Prompting: Gere Múltiplas Respostas, Escolha a Mais Consistente
Techniques

Self-Consistency Prompting: Gere Múltiplas Respostas, Escolha a Mais Consistente

·12 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

O self-consistency prompting gera 5–20 caminhos de raciocínio independentes para a mesma pergunta e seleciona a resposta que aparece com mais frequência. Em vez de confiar em uma única resposta de IA (que pode estar errada), você faz a pergunta várias vezes com temperaturas mais altas e deixa a votação por maioria decidir. Essa técnica simples melhora a precisão em matemática, lógica e análise de múltiplos passos em 15–25 pontos percentuais.

Self-consistency prompting: faça ao modelo a mesma pergunta 5–20 vezes com temperatura alta (0,7–1,0) para gerar caminhos de raciocínio diversos, depois escolha a resposta majoritária. A técnica melhorou a precisão em matemática de 56% (chain-of-thought único) para 74% (self-consistency com 40 amostras) no artigo original. Funciona em todos os modelos. Trade-off: 5–20× mais tokens por tarefa.

⚡ Quick Facts

  • ·Técnica: Gere 5–20 caminhos de raciocínio independentes para a mesma pergunta, depois selecione a resposta mais frequente por votação por maioria.
  • ·Artigo: Wang et al. (2023), "Self-Consistency Improves Chain of Thought Reasoning in Language Models," ICLR 2023.
  • ·Resultado principal: Precisão matemática GSM8K melhorou de 56% (chain-of-thought único) para 74% (self-consistency com 40 amostras) — uma melhoria relativa de 32%.
  • ·Requisito de temperatura: Deve ser definida em 0,7–1,0 (temperatura=0 produz saídas idênticas, anulando o propósito).
  • ·Número de amostras: 5–10 amostras é o ponto ideal; retornos decrescentes além de 20 amostras.
  • ·Custo: 5–20× mais tokens por tarefa; justificado apenas para raciocínio de alto risco onde precisão importa mais que custo.

O que é Self-Consistency Prompting

Self-consistency prompting significa amostrar várias respostas independentes ao mesmo prompt e selecionar a conclusão mais consistente. Em vez de um único chain of thought, você obtém múltiplos, potencialmente diferentes caminhos.

A ideia é simples: se o modelo raciocina de várias maneiras diferentes e a maioria dos caminhos converge para a mesma resposta, essa resposta é mais confiável do que uma única execução. Se os caminhos divergem, você sabe que o problema é ambíguo ou difícil e precisa de revisão mais detalhada.

O self-consistency foi introduzido por Wang et al. em 2023 (ICLR) e mostrou melhorias dramáticas de precisão em matemática, lógica e tarefas de raciocínio.

Por que o Self-Consistency Prompting Importa

O self-consistency prompting importa porque modelos de linguagem podem ser instáveis em tarefas de raciocínio difícil — pequenas mudanças na amostragem podem inverter a resposta. Ao examinar um conjunto de tentativas em vez de uma, você reduz o impacto de qualquer alucinação ou erro isolado.

  • Problemas de matemática e lógica.
  • Questões analíticas de múltiplos passos.
  • Decisões com trade-offs sutis onde pequenos erros de raciocínio mudam o resultado.
  • Qualquer raciocínio específico de domínio onde a precisão de passagem única esteja abaixo de 90%.

🔍 Dica Pro

Você não precisa comparar manualmente 10 saídas. Adicione uma etapa de agregação final: cole todas as N respostas em um novo prompt e pergunte "Estas são 10 respostas para a mesma pergunta. Qual resposta aparece com mais frequência? Declare a resposta de consenso e seu nível de confiança." O modelo faz a votação por você.

O que os Números Mostram

O artigo original de Wang et al. (2023) demonstrou self-consistency em raciocínio aritmético (benchmark GSM8K). Os resultados mostram um padrão claro:

O padrão: cada amostra adicional melhora a precisão, mas com retornos decrescentes. Ir de 1 para 5 amostras dá o maior ganho (+10 pontos percentuais). Ir de 20 para 40 adiciona apenas 2 pontos percentuais.

MétodoPrecisão GSM8KAmostrasMultiplicador de custo
Prompting padrão (sem chain-of-thought)18%1
Chain-of-thought (passagem única)56%11,5×
Self-consistency (5 amostras)66%57,5×
Self-consistency (10 amostras)70%1015×
Self-consistency (20 amostras)72%2030×
Self-consistency (40 amostras)74%4060×

🔍 Você Sabia?

Self-consistency melhorou a precisão matemática GSM8K de 56% para 74% — uma melhoria relativa de 32% — simplesmente fazendo a mesma pergunta várias vezes e escolhendo a resposta majoritária. Sem mudanças no modelo, sem fine-tuning, sem novos dados.

Como o Self-Consistency Prompting Funciona na Prática

Na prática, o self-consistency prompting segue um padrão de duas fases: gerar respostas diversas e depois agregá-las.

Um fluxo típico:

  1. 1
    Use um prompt de estilo raciocínio (frequentemente com instruções de chain-of-thought) e defina a temperatura em 0,7–1,0 para que o modelo produza explicações variadas.
  2. 2
    Execute o mesmo prompt várias vezes (por exemplo 5–20) e colete todas as respostas finais. Cada execução deve ser independente.
  3. 3
    Agregue: conte qual resposta aparece com mais frequência, ou agrupe respostas similares. Use a resposta majoritária como resultado final.
  4. 4
    Opcionalmente, peça ao modelo para reconciliar desacordos: "Estas são 10 respostas para a mesma pergunta. Qual aparece com mais frequência? Razões para desacordo?" Isso adiciona metadados de confiança.

Self-Consistency vs Consenso Multi-Modelo

Self-consistency amostra o MESMO modelo várias vezes. Consenso multi-modelo amostra DIFERENTES modelos uma vez cada. Ambos aplicam o mesmo princípio — votação por maioria sobre caminhos de raciocínio diversos — mas capturam diferentes modos de falha.

PromptQuorum habilita consenso multi-modelo nativamente — despacha um prompt para vários modelos e compara. Para decisões críticas, combine ambos.

AbordagemComo funcionaO que capturaPontos cegos
Self-consistency (modelo único)Mesmo prompt, mesmo modelo, 5–20 execuções em T=0,7+Instabilidade de amostragem, erros aleatóriosViés sistemático do modelo (mesmo viés em cada amostra)
Consenso multi-modeloMesmo prompt, modelos diferentes, 1 execução cadaVieses específicos do modelo, pontos cegos arquiteturaisTodos os modelos podem compartilhar a mesma lacuna de dados de treinamento
Combinado (mais forte)Vários modelos × várias amostras cadaTanto erros aleatórios QUANTO vieses sistemáticosCusto: N modelos × M amostras = N×M chamadas de API

Quando Usar Self-Consistency Prompting

Você deve usar self-consistency prompting quando o custo de uma resposta errada é alto e a tarefa envolve raciocínio não trivial.

Bons candidatos incluem:

  • Questões analíticas que impulsionam decisões de negócios ou técnicas.
  • Tarefas de codificação complexas onde erros lógicos são custosos.
  • Raciocínio educacional ou de estilo exame onde as etapas intermediárias importam.
  • Qualquer fluxo de trabalho onde você já observou que execuções únicas são instáveis.
  • Problemas de matemática, quebra-cabeças lógicos, síntese de pesquisa, análise financeira.
TécnicaAmostrasCustoMelhor paraGanho de precisão
Resposta única (linha de base)1Tarefas simples, baixo risco
Chain-of-thought1~1,5×Matemática, lógica, passo a passoModerado (+5–10 pp)
Self-consistency5–207,5–30×Raciocínio difícil, alto riscoGrande (+18 pp no GSM8K)
Consenso multi-modelo3–5 modelos3–5×Capturar vieses específicos do modeloModerado-Grande
Ambos combinados5 × 3 modelos15×Máxima confiabilidadeMais alta

⚠️ Aviso

Self-consistency com temperatura 0 é inútil — cada amostra produz a saída idêntica. Você deve definir a temperatura em 0,7 ou maior para gerar a variação que torna a votação por maioria informativa. Este é o erro de implementação mais comum.

Erros Comuns com Self-Consistency Prompting

Aqui estão as armadilhas que prejudicam o self-consistency e como evitá-las:

  • Usar temperatura 0 (modo determinístico). Por que prejudica: cada amostra é idêntica. Votação em 10 respostas idênticas não diz nada. Solução: defina temperatura em 0,7–1,0.
  • Usar self-consistency para perguntas factuais simples. Por que prejudica: "Qual é a capital da França?" produz "Paris" sempre. Você gastou 10× os tokens sem ganho de precisão. Solução: reserve self-consistency para tarefas onde precisão de passagem única esteja abaixo de 90%.
  • Gerar poucas amostras (2–3). Por que prejudica: com 2 amostras que divergem, você não tem desempate. Solução: use pelo menos 5 amostras.
  • Votar no texto completo da resposta em vez da resposta final. Solução: extraia apenas a resposta final (exija formato "Resposta: X") e vote sobre isso.

Self-Consistency Prompting no PromptQuorum

PromptQuorum é uma ferramenta de despacho de IA multi-modelo que complementa naturalmente o self-consistency prompting ao permitir que você gere e compare múltiplas respostas facilmente.

Com PromptQuorum, você pode:

  • Reutilizar um framework focado em raciocínio (como TRACE ou APE) e executá-lo várias vezes por modelo para coletar cadeias de pensamento diversas.
  • Executar o mesmo prompt de raciocínio em vários modelos em paralelo para ver se convergem para a mesma resposta.
  • Salvar fluxos de trabalho de self-consistency como templates para que sua equipe possa aplicar repetidamente "amostrar várias vezes, depois agregar".

Como Usar Self-Consistency Prompting

  1. 1
    Para tarefas de raciocínio complexas, gere múltiplas saídas (5–10) do mesmo prompt com diferentes sementes aleatórias. Faça a mesma pergunta ao modelo 5 vezes. Você obterá 5 respostas diferentes.
  2. 2
    Analise as saídas para encontrar padrões consistentes (o "consenso"). Se 4 de 5 respostas concordam em uma resposta, esse acordo é seu sinal de confiança.
  3. 3
    Use self-consistency para detectar alucinações em tarefas de pesquisa e conhecimento.
  4. 4
    Defina a temperatura (T) mais alta (0,7–1,0) para incentivar saídas diversas. Temperaturas mais baixas (T = 0) produzem a mesma saída determinística sempre, anulando o propósito.
  5. 5
    Implemente self-consistency em pipelines de produção onde o custo permitir. Executar 5–10× mais gerações é caro, mas para decisões críticas, o sinal de consenso justifica o custo.

Perguntas Frequentes

O que é self-consistency prompting?

Self-consistency prompting é uma técnica onde você gera múltiplas respostas independentes para a mesma pergunta — cada uma com seu próprio caminho de raciocínio — e depois seleciona a resposta que aparece com mais frequência. Introduzida por Wang et al. (2023) e melhora significativamente a precisão em matemática, lógica e tarefas de raciocínio de múltiplos passos.

Quantas amostras preciso para self-consistency?

Para a maioria das tarefas, 5–10 amostras fornecem a melhor relação precisão-custo. O artigo original mostrou precisão melhorando rapidamente de 1 para 5 amostras, depois retornos decrescentes além de 20. Comece com 5; aumente para 10–20 apenas para decisões de alto risco.

Qual temperatura devo usar para self-consistency?

Defina temperatura em 0,7–1,0. A técnica requer caminhos de raciocínio diversos — se temperatura for 0 (determinístico), cada amostra produz a saída idêntica e a votação não tem sentido.

Como o PromptQuorum se relaciona com self-consistency?

PromptQuorum aplica o mesmo princípio de consenso entre diferentes modelos em vez de dentro de um. Em vez de perguntar ao mesmo modelo 10 vezes, você pergunta a 5 modelos diferentes uma vez cada e compara suas respostas. Onde concordam, a confiança é alta. Isso captura vieses específicos do modelo que o self-consistency de um único modelo não consegue detectar.

Apply these techniques across 25+ AI models simultaneously with PromptQuorum.

Try PromptQuorum free →

← Back to Prompt Engineering

Self-Consistency Prompting: Várias Respostas, Escolha a Melhor