O que é Self-Consistency Prompting
Self-consistency prompting significa amostrar várias respostas independentes ao mesmo prompt e selecionar a conclusão mais consistente. Em vez de um único chain of thought, você obtém múltiplos, potencialmente diferentes caminhos.
A ideia é simples: se o modelo raciocina de várias maneiras diferentes e a maioria dos caminhos converge para a mesma resposta, essa resposta é mais confiável do que uma única execução. Se os caminhos divergem, você sabe que o problema é ambíguo ou difícil e precisa de revisão mais detalhada.
O self-consistency foi introduzido por Wang et al. em 2023 (ICLR) e mostrou melhorias dramáticas de precisão em matemática, lógica e tarefas de raciocínio.
Por que o Self-Consistency Prompting Importa
O self-consistency prompting importa porque modelos de linguagem podem ser instáveis em tarefas de raciocínio difícil — pequenas mudanças na amostragem podem inverter a resposta. Ao examinar um conjunto de tentativas em vez de uma, você reduz o impacto de qualquer alucinação ou erro isolado.
- Problemas de matemática e lógica.
- Questões analíticas de múltiplos passos.
- Decisões com trade-offs sutis onde pequenos erros de raciocínio mudam o resultado.
- Qualquer raciocínio específico de domínio onde a precisão de passagem única esteja abaixo de 90%.
🔍 Dica Pro
Você não precisa comparar manualmente 10 saídas. Adicione uma etapa de agregação final: cole todas as N respostas em um novo prompt e pergunte "Estas são 10 respostas para a mesma pergunta. Qual resposta aparece com mais frequência? Declare a resposta de consenso e seu nível de confiança." O modelo faz a votação por você.
O que os Números Mostram
O artigo original de Wang et al. (2023) demonstrou self-consistency em raciocínio aritmético (benchmark GSM8K). Os resultados mostram um padrão claro:
O padrão: cada amostra adicional melhora a precisão, mas com retornos decrescentes. Ir de 1 para 5 amostras dá o maior ganho (+10 pontos percentuais). Ir de 20 para 40 adiciona apenas 2 pontos percentuais.
| Método | Precisão GSM8K | Amostras | Multiplicador de custo |
|---|---|---|---|
| Prompting padrão (sem chain-of-thought) | 18% | 1 | 1× |
| Chain-of-thought (passagem única) | 56% | 1 | 1,5× |
| Self-consistency (5 amostras) | 66% | 5 | 7,5× |
| Self-consistency (10 amostras) | 70% | 10 | 15× |
| Self-consistency (20 amostras) | 72% | 20 | 30× |
| Self-consistency (40 amostras) | 74% | 40 | 60× |
🔍 Você Sabia?
Self-consistency melhorou a precisão matemática GSM8K de 56% para 74% — uma melhoria relativa de 32% — simplesmente fazendo a mesma pergunta várias vezes e escolhendo a resposta majoritária. Sem mudanças no modelo, sem fine-tuning, sem novos dados.
Como o Self-Consistency Prompting Funciona na Prática
Na prática, o self-consistency prompting segue um padrão de duas fases: gerar respostas diversas e depois agregá-las.
Um fluxo típico:
- 1Use um prompt de estilo raciocínio (frequentemente com instruções de chain-of-thought) e defina a temperatura em 0,7–1,0 para que o modelo produza explicações variadas.
- 2Execute o mesmo prompt várias vezes (por exemplo 5–20) e colete todas as respostas finais. Cada execução deve ser independente.
- 3Agregue: conte qual resposta aparece com mais frequência, ou agrupe respostas similares. Use a resposta majoritária como resultado final.
- 4Opcionalmente, peça ao modelo para reconciliar desacordos: "Estas são 10 respostas para a mesma pergunta. Qual aparece com mais frequência? Razões para desacordo?" Isso adiciona metadados de confiança.
Self-Consistency vs Consenso Multi-Modelo
Self-consistency amostra o MESMO modelo várias vezes. Consenso multi-modelo amostra DIFERENTES modelos uma vez cada. Ambos aplicam o mesmo princípio — votação por maioria sobre caminhos de raciocínio diversos — mas capturam diferentes modos de falha.
PromptQuorum habilita consenso multi-modelo nativamente — despacha um prompt para vários modelos e compara. Para decisões críticas, combine ambos.
| Abordagem | Como funciona | O que captura | Pontos cegos |
|---|---|---|---|
| Self-consistency (modelo único) | Mesmo prompt, mesmo modelo, 5–20 execuções em T=0,7+ | Instabilidade de amostragem, erros aleatórios | Viés sistemático do modelo (mesmo viés em cada amostra) |
| Consenso multi-modelo | Mesmo prompt, modelos diferentes, 1 execução cada | Vieses específicos do modelo, pontos cegos arquiteturais | Todos os modelos podem compartilhar a mesma lacuna de dados de treinamento |
| Combinado (mais forte) | Vários modelos × várias amostras cada | Tanto erros aleatórios QUANTO vieses sistemáticos | Custo: N modelos × M amostras = N×M chamadas de API |
Quando Usar Self-Consistency Prompting
Você deve usar self-consistency prompting quando o custo de uma resposta errada é alto e a tarefa envolve raciocínio não trivial.
Bons candidatos incluem:
- Questões analíticas que impulsionam decisões de negócios ou técnicas.
- Tarefas de codificação complexas onde erros lógicos são custosos.
- Raciocínio educacional ou de estilo exame onde as etapas intermediárias importam.
- Qualquer fluxo de trabalho onde você já observou que execuções únicas são instáveis.
- Problemas de matemática, quebra-cabeças lógicos, síntese de pesquisa, análise financeira.
| Técnica | Amostras | Custo | Melhor para | Ganho de precisão |
|---|---|---|---|---|
| Resposta única (linha de base) | 1 | 1× | Tarefas simples, baixo risco | — |
| Chain-of-thought | 1 | ~1,5× | Matemática, lógica, passo a passo | Moderado (+5–10 pp) |
| Self-consistency | 5–20 | 7,5–30× | Raciocínio difícil, alto risco | Grande (+18 pp no GSM8K) |
| Consenso multi-modelo | 3–5 modelos | 3–5× | Capturar vieses específicos do modelo | Moderado-Grande |
| Ambos combinados | 5 × 3 modelos | 15× | Máxima confiabilidade | Mais alta |
⚠️ Aviso
Self-consistency com temperatura 0 é inútil — cada amostra produz a saída idêntica. Você deve definir a temperatura em 0,7 ou maior para gerar a variação que torna a votação por maioria informativa. Este é o erro de implementação mais comum.
Erros Comuns com Self-Consistency Prompting
Aqui estão as armadilhas que prejudicam o self-consistency e como evitá-las:
- Usar temperatura 0 (modo determinístico). Por que prejudica: cada amostra é idêntica. Votação em 10 respostas idênticas não diz nada. Solução: defina temperatura em 0,7–1,0.
- Usar self-consistency para perguntas factuais simples. Por que prejudica: "Qual é a capital da França?" produz "Paris" sempre. Você gastou 10× os tokens sem ganho de precisão. Solução: reserve self-consistency para tarefas onde precisão de passagem única esteja abaixo de 90%.
- Gerar poucas amostras (2–3). Por que prejudica: com 2 amostras que divergem, você não tem desempate. Solução: use pelo menos 5 amostras.
- Votar no texto completo da resposta em vez da resposta final. Solução: extraia apenas a resposta final (exija formato "Resposta: X") e vote sobre isso.
Self-Consistency Prompting no PromptQuorum
PromptQuorum é uma ferramenta de despacho de IA multi-modelo que complementa naturalmente o self-consistency prompting ao permitir que você gere e compare múltiplas respostas facilmente.
Com PromptQuorum, você pode:
- Reutilizar um framework focado em raciocínio (como TRACE ou APE) e executá-lo várias vezes por modelo para coletar cadeias de pensamento diversas.
- Executar o mesmo prompt de raciocínio em vários modelos em paralelo para ver se convergem para a mesma resposta.
- Salvar fluxos de trabalho de self-consistency como templates para que sua equipe possa aplicar repetidamente "amostrar várias vezes, depois agregar".
Como Usar Self-Consistency Prompting
- 1Para tarefas de raciocínio complexas, gere múltiplas saídas (5–10) do mesmo prompt com diferentes sementes aleatórias. Faça a mesma pergunta ao modelo 5 vezes. Você obterá 5 respostas diferentes.
- 2Analise as saídas para encontrar padrões consistentes (o "consenso"). Se 4 de 5 respostas concordam em uma resposta, esse acordo é seu sinal de confiança.
- 3Use self-consistency para detectar alucinações em tarefas de pesquisa e conhecimento.
- 4Defina a temperatura (T) mais alta (0,7–1,0) para incentivar saídas diversas. Temperaturas mais baixas (T = 0) produzem a mesma saída determinística sempre, anulando o propósito.
- 5Implemente self-consistency em pipelines de produção onde o custo permitir. Executar 5–10× mais gerações é caro, mas para decisões críticas, o sinal de consenso justifica o custo.
Leituras Relacionadas
Fontes
- Wang et al. (2023). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2203.11171
- Wei et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
- Anthropic. "Prompt Engineering Guide." docs.anthropic.com
Perguntas Frequentes
O que é self-consistency prompting?
Self-consistency prompting é uma técnica onde você gera múltiplas respostas independentes para a mesma pergunta — cada uma com seu próprio caminho de raciocínio — e depois seleciona a resposta que aparece com mais frequência. Introduzida por Wang et al. (2023) e melhora significativamente a precisão em matemática, lógica e tarefas de raciocínio de múltiplos passos.
Quantas amostras preciso para self-consistency?
Para a maioria das tarefas, 5–10 amostras fornecem a melhor relação precisão-custo. O artigo original mostrou precisão melhorando rapidamente de 1 para 5 amostras, depois retornos decrescentes além de 20. Comece com 5; aumente para 10–20 apenas para decisões de alto risco.
Qual temperatura devo usar para self-consistency?
Defina temperatura em 0,7–1,0. A técnica requer caminhos de raciocínio diversos — se temperatura for 0 (determinístico), cada amostra produz a saída idêntica e a votação não tem sentido.
Como o PromptQuorum se relaciona com self-consistency?
PromptQuorum aplica o mesmo princípio de consenso entre diferentes modelos em vez de dentro de um. Em vez de perguntar ao mesmo modelo 10 vezes, você pergunta a 5 modelos diferentes uma vez cada e compara suas respostas. Onde concordam, a confiança é alta. Isso captura vieses específicos do modelo que o self-consistency de um único modelo não consegue detectar.