O que é Temperatura?
Temperatura é um parâmetro que controla o quanto o modelo se desvia das escolhas de palavras de maior probabilidade ao gerar texto. Uma temperatura mais baixa faz o modelo jogar com segurança — sempre escolhendo as palavras mais prováveis. Uma temperatura mais alta injeta aleatoriedade — tornando a saída mais variada, mas menos previsível.
A escala de temperatura vai de 0 a 2 na maioria das APIs: 0 = completamente determinístico (ou tão próximo quanto possível), 1,0 = configuração padrão equilibrada, 2,0 = altamente aleatório e por vezes incoerente.
O que é Top-P (Nucleus Sampling)?
Top-p, também chamado de nucleus sampling, restringe as escolhas de palavras do modelo ao menor conjunto de tokens cujas probabilidades combinadas somam pelo menos p%. Em vez de selecionar entre todos os tokens possíveis (que podem incluir escolhas de baixa qualidade), o modelo considera apenas os tokens dentro do "núcleo" de probabilidade.
Top-p 0,9 significa: considere apenas os tokens que juntos representam 90% da probabilidade total. Ignore os 10% inferiores de candidatos improváveis.
Valores de Temperatura por Caso de Uso
| Faixa de Temperatura | Comportamento | Melhor para |
|---|---|---|
| 0,0 – 0,3 | Determinístico, conservador, previsível | Perguntas factuais, extração de dados, classificação, código de produção |
| 0,3 – 0,7 | Balanceado, ligeiramente variável | Resumo, resposta a e-mail, resposta geral de chatbot |
| 0,7 – 1,2 | Criativo, variado, menos previsível | Brainstorming, geração de ideias, escrita criativa, diálogo de personagem |
| 1,2 – 2,0 | Altamente aleatório, experimental | Ficção experimental, poesia, exploração criativa extrema. Use com cautela. |
Valores de Top-P por Caso de Uso
| Valor de Top-P | Efeito | Melhor para |
|---|---|---|
| 0,1 – 0,3 | Ultra-conservador — apenas as escolhas de palavras mais seguras | Conteúdo jurídico ou médico de alto risco onde segurança é crítica |
| 0,7 – 0,9 | Padrão equilibrado — boa variedade sem incoerência | Chat de propósito geral, redação de negócios, respostas de suporte ao cliente |
| 1,0 | Sem filtragem — todos os tokens são considerados | Geralmente não recomendado — aumenta o risco de saída sem sentido |
Como Ajustar Temperatura e Top-P
- 1Comece com temperatura 0 para tarefas factuais e código. Se você precisar de resultados consistentes e reproduzíveis — extração de dados, análise de código, perguntas factuais — comece com temperatura 0.
- 2Use temperatura 0,7–1,0 para conteúdo criativo. Para brainstorming, geração de ideias, escrita criativa ou diálogo de personagens, aumente a temperatura para 0,7–1,2.
- 3Ajuste top-p para 0,9 como seu padrão seguro. Top-p 0,9 fornece boa variedade sem permitir saídas altamente improváveis. Reduza para 0,7 se quiser respostas mais conservadoras.
- 4Ajuste apenas temperatura OU top-p de cada vez. Alterar ambos simultaneamente torna impossível saber qual parâmetro causou a mudança de comportamento.
- 5Teste múltiplos valores usando o PromptQuorum. Execute o mesmo prompt com temperatura 0,3, 0,7 e 1,0 e compare as saídas lado a lado para encontrar o equilíbrio certo para seu caso de uso.
Perguntas Frequentes
Qual temperatura devo usar para código?
Use temperatura 0–0,3 para código. Você quer que o modelo escolha as soluções de codificação mais prováveis e corretas, não variação criativa. Temperatura mais alta introduz bugs e padrões de código não convencionais.
Qual a diferença entre temperatura e top-p?
Temperatura escala as probabilidades de todos os tokens — tornando a distribuição mais plana (mais aleatória) ou mais nítida (mais determinística). Top-p filtra os tokens de baixa probabilidade definindo um limite percentual de probabilidade acumulada. Ambos controlam a aleatoriedade mas por mecanismos diferentes.
Temperatura 0 é completamente determinística?
Quase, mas não completamente. Temperatura 0 seleciona o token de maior probabilidade a cada etapa, mas sementes aleatórias de hardware e arredondamento de ponto flutuante podem introduzir variação mínima. Na prática, temperatura 0 é muito consistente entre execuções.
Leituras Relacionadas
- Self-Consistency Prompting — usa temperatura alta para gerar caminhos de raciocínio diversos
- Tokens, Custos e Limites