Temperatura e top-p controlam quão aventureiras ou conservadoras são as escolhas de palavras da IA. Ajustando esses parâmetros, você equilibra criatividade versus confiabilidade — valores mais altos produzem saídas surpreendentes e variadas; valores mais baixos produzem saídas seguras e previsíveis.

O que é Temperatura?

Temperatura é um parâmetro que controla o quanto o modelo se desvia das escolhas de palavras de maior probabilidade ao gerar texto. Uma temperatura mais baixa faz o modelo jogar com segurança — sempre escolhendo as palavras mais prováveis. Uma temperatura mais alta injeta aleatoriedade — tornando a saída mais variada, mas menos previsível.

A escala de temperatura vai de 0 a 2 na maioria das APIs: 0 = completamente determinístico (ou tão próximo quanto possível), 1,0 = configuração padrão equilibrada, 2,0 = altamente aleatório e por vezes incoerente.

O que é Top-P (Nucleus Sampling)?

Top-p, também chamado de nucleus sampling, restringe as escolhas de palavras do modelo ao menor conjunto de tokens cujas probabilidades combinadas somam pelo menos p%. Em vez de selecionar entre todos os tokens possíveis (que podem incluir escolhas de baixa qualidade), o modelo considera apenas os tokens dentro do "núcleo" de probabilidade.

Top-p 0,9 significa: considere apenas os tokens que juntos representam 90% da probabilidade total. Ignore os 10% inferiores de candidatos improváveis.

Valores de Temperatura por Caso de Uso

Faixa de Temperatura	Comportamento	Melhor para
0,0 – 0,3	Determinístico, conservador, previsível	Perguntas factuais, extração de dados, classificação, código de produção
0,3 – 0,7	Balanceado, ligeiramente variável	Resumo, resposta a e-mail, resposta geral de chatbot
0,7 – 1,2	Criativo, variado, menos previsível	Brainstorming, geração de ideias, escrita criativa, diálogo de personagem
1,2 – 2,0	Altamente aleatório, experimental	Ficção experimental, poesia, exploração criativa extrema. Use com cautela.

Valores de Top-P por Caso de Uso

Valor de Top-P	Efeito	Melhor para
0,1 – 0,3	Ultra-conservador — apenas as escolhas de palavras mais seguras	Conteúdo jurídico ou médico de alto risco onde segurança é crítica
0,7 – 0,9	Padrão equilibrado — boa variedade sem incoerência	Chat de propósito geral, redação de negócios, respostas de suporte ao cliente
1,0	Sem filtragem — todos os tokens são considerados	Geralmente não recomendado — aumenta o risco de saída sem sentido

Como Ajustar Temperatura e Top-P

1
Comece com temperatura 0 para tarefas factuais e código. Se você precisar de resultados consistentes e reproduzíveis — extração de dados, análise de código, perguntas factuais — comece com temperatura 0.
2
Use temperatura 0,7–1,0 para conteúdo criativo. Para brainstorming, geração de ideias, escrita criativa ou diálogo de personagens, aumente a temperatura para 0,7–1,2.
3
Ajuste top-p para 0,9 como seu padrão seguro. Top-p 0,9 fornece boa variedade sem permitir saídas altamente improváveis. Reduza para 0,7 se quiser respostas mais conservadoras.
4
Ajuste apenas temperatura OU top-p de cada vez. Alterar ambos simultaneamente torna impossível saber qual parâmetro causou a mudança de comportamento.
5
Teste múltiplos valores usando o PromptQuorum. Execute o mesmo prompt com temperatura 0,3, 0,7 e 1,0 e compare as saídas lado a lado para encontrar o equilíbrio certo para seu caso de uso.

Perguntas Frequentes

Qual temperatura devo usar para código?

Use temperatura 0–0,3 para código. Você quer que o modelo escolha as soluções de codificação mais prováveis e corretas, não variação criativa. Temperatura mais alta introduz bugs e padrões de código não convencionais.

Qual a diferença entre temperatura e top-p?

Temperatura escala as probabilidades de todos os tokens — tornando a distribuição mais plana (mais aleatória) ou mais nítida (mais determinística). Top-p filtra os tokens de baixa probabilidade definindo um limite percentual de probabilidade acumulada. Ambos controlam a aleatoriedade mas por mecanismos diferentes.

Temperatura 0 é completamente determinística?

Quase, mas não completamente. Temperatura 0 seleciona o token de maior probabilidade a cada etapa, mas sementes aleatórias de hardware e arredondamento de ponto flutuante podem introduzir variação mínima. Na prática, temperatura 0 é muito consistente entre execuções.

Leituras Relacionadas

Self-Consistency Prompting — usa temperatura alta para gerar caminhos de raciocínio diversos
Tokens, Custos e Limites

Temperatura e Top-P: Controle a Criatividade da IA