O que é um token?
Um token é a menor unidade de texto que um modelo de IA processa — aproximadamente 3–4 caracteres ou ¾ de uma palavra em inglês. Em texto inglês, "ChatGPT" conta como 2 tokens, e "Hello, how are you?" são aproximadamente 5–6 tokens. Outros idiomas tokenizam com menos eficiência — a mesma frase em alemão ou japonês pode consumir 20–40% mais tokens. Você é cobrado por cada token do seu prompt (entrada) e por cada token que o modelo produz.
Os modelos não "pensam" em palavras ou caracteres. Internamente, convertem seu texto em IDs de token e os processam numericamente.
Em uma frase: um token é a menor unidade de texto que um modelo de IA processa — aproximadamente 3–4 caracteres ou ¾ de uma palavra em inglês — e você é cobrado por cada token de entrada e cada token de saída.
Como funciona a contagem de tokens na prática
Cada elemento da sua chamada de API — system prompt, histórico da conversa, nova mensagem, arquivos e a própria saída do modelo — consome tokens da sua cota.
- System prompt: Contado uma vez por mensagem. Um system prompt de 200 palavras = ~250 tokens em cada chamada à API.
- Histórico completo da conversa: Incluído em cada solicitação, a menos que seja resumido ou descartado explicitamente.
- Sua mensagem de entrada: Contada como está.
- Arquivos ou imagens anexados: Imagens consomem 100–2.000 tokens dependendo do tamanho e resolução.
- Saída do modelo: A resposta gerada é contada integralmente nas taxas de tokens de saída (geralmente 2–5× mais altas que as taxas de entrada).
- Exemplo prático: System prompt (300) + Pergunta 1 (150) + Resposta 1 (200) + Pergunta 2 (200) + Resposta 2 (300) + Pergunta 3 (100) = 1.250 tokens. Quando você envia a Pergunta 3, paga por todo o histórico novamente mais a saída da Resposta 3.
Quanto custam GPT-5.5, Claude e Gemini por milhão de tokens em 2026?
Os preços variam drasticamente com base na capacidade do modelo. Todos os valores abaixo são preços públicos de abril de 2026.
Preços a partir de abril de 2026. Verifique as taxas atuais: Preços OpenAI · Preços Anthropic · Preços Google
| Modelo | Entrada (por 1M tokens) | Saída (por 1M tokens) |
|---|---|---|
| OpenAI GPT-5.5 | $5,00 | $15,00 |
| Anthropic Claude Opus 4.8 | $3,00 | $15,00 |
| Google Gemini 3.5 Pro | $3,50 | $10,50 |
| OpenAI GPT-5.5 mini | $0,15 | $0,60 |
| Anthropic Claude 4.5 Haiku | $0,25 | $1,25 |
| Google Gemini 3.5 Flash | $0,075 | $0,30 |
O que são limites de taxa — e por que existem?
Limites de taxa são restrições sobre quantas solicitações você pode fazer por minuto (RPM), quantos tokens pode processar por minuto (TPM), ou quantos tokens por dia (TPD). Os provedores impõem limites para evitar abusos, garantir alocação justa de recursos entre usuários e criar faixas de preço.
- Solicitações por minuto (RPM): O número de chamadas de API que você pode fazer em uma janela de 60 segundos.
- Tokens por minuto (TPM): O rendimento total de tokens. Um único prompt grande pode consumir toda a sua cota de TPM em segundos.
- Limites típicos: Plano gratuito: 3–15 RPM, 40k–100k TPM. Plano pago nível 1: 500 RPM, 200k–500k TPM. Empresarial: 3.000+ RPM, milhões de TPM.
- Estratégias alternativas: Agrupar tarefas pequenas em solicitações maiores, adicionar atrasos entre solicitações ou fazer upgrade para uma conta de nível superior.
Como o design do prompt controla os custos
Cada token desnecessário no seu prompt desperdiça dinheiro — e os custos acumulam mais rápido porque todo o seu prompt é reinserido em cada chamada de API em uma conversa. Reduzir um system prompt de 500 tokens para 300 tokens economiza $0,001 por chamada, mas em 1.000 chamadas por dia, isso é $1/dia ou $365/ano.
- Corte o contexto agressivamente: Não repita o que o modelo já sabe.
- Use restrições explícitas de comprimento: "Responda em 3 tópicos" ou "Máximo de 100 palavras" força a concisão.
- Evite preenchimento em system prompts: Cada palavra de renchimento custa dinheiro.
Como reduzir custos de API de LLM em 5 passos
- 1Combine o modelo à complexidade da tarefa: use GPT-5.5 mini ou Claude 4.5 Haiku para classificação simples e Q&A — 33× mais barato que modelos frontier
- 2Resuma o histórico da conversa a cada 5 turnos: evita refaturação do histórico completo em cada chamada
- 3Limite o comprimento da saída explicitamente: "Responda em 3 tópicos" ou "Máximo de 100 palavras" evita respostas longas com muitos tokens
- 4Corte os system prompts ao essencial: remova frases de preenchimento; cada palavra redundante é refaturada em cada chamada de API
- 5Teste LLMs locais via Ollama para fluxos de trabalho privados de alto volume: custo zero de API por token
Escolhendo o modelo certo para a tarefa certa
Nem toda tarefa requer OpenAI GPT-5.5 ou Anthropic Claude Opus. Classificação simples, Q&A factual e muitas tarefas automatizadas funcionam perfeitamente em modelos mais baratos.
| Tipo de tarefa | Modelo recomendado | Custo vs GPT-5.5 |
|---|---|---|
| Classificação simples / Sim-Não | GPT-5.5 mini, Claude Haiku 4.5 ou Gemini Flash | 33× mais barato |
| Q&A factual curto | GPT-5.5 mini ou Claude Haiku 4.5 | 10–33× mais barato |
| Análise complexa ou código | GPT-5.5 ou Claude Opus 4.8 | referência |
| Escrita criativa longa | Claude Opus 4.8 ou GPT-5.5 | referência |
| Fluxos de trabalho privados de alto volume | Modelo local via Ollama | custo de API zero |
LLMs Locais — Opção de Custo Zero
Modelos locais via Ollama ou LM Studio têm custo zero de API por token — você paga apenas pelo hardware (VRAM e eletricidade). Isso os torna ideais para fluxos de trabalho de alto volume, aplicações sensíveis à privacidade e pipelines com custo crítico. Para equipes brasileiras que processam dados pessoais de acordo com a LGPD, a inferência local elimina transferências de dados para APIs externas.
- Custos de hardware: Modelos Ollama como LLaMA 3.1 7B requerem ~8 GB de VRAM, modelos 13B precisam de ~16 GB, modelos 70B precisam de 40 GB+.
- Trade-off de capacidade: Modelos locais são excelentes em classificação, resumo e tarefas repetitivas. Têm dificuldades com raciocínio de múltiplos passos comparados ao GPT-5.5 ou Claude Opus 4.8.
- Trade-off de latência: Modelos cloud respondem em 500ms–2s. Modelos locais em hardware de consumo: 2–10s dependendo do tamanho do modelo.
- Quando usar local: Automação de alto volume (1.000+ chamadas/dia), dados sensíveis segundo a LGPD/ANPD, ou fluxos de trabalho com custo crítico.
Como o PromptQuorum ajuda você a gerenciar custos de tokens
O PromptQuorum usa dois LLMs: um Backend LLM e um Frontend LLM (o modelo escolhido que responde sua pergunta). O Backend LLM otimiza seu prompt e executa análise de consenso Quorum em vários modelos Frontend. Diferente das interfaces de chat de modelo único, o PromptQuorum torna o uso de tokens visível e acionável.
Receitas de Custo de Tokens
Use estes templates como pontos de partida para otimizar custos em fluxos de trabalho específicos.
- "Consulta rápida / tarefa Sim-Não": Use GPT-5.5 mini ou Haiku. System prompt mínimo (≤50 tokens). Sem histórico de conversa. Limite a saída a 1–2 frases. Custo total por tarefa: ~$0,00001–0,0001.
- "Tarefa longa de pesquisa (5–10 turnos)": Use Claude Opus 4.8. Após cada 5 turnos, resuma a conversa e substitua o histórico por um resumo (reduz tokens em 70%).
- "Pipeline automatizado / processamento em lote": Use GPT-5.5 mini para filtragem ou classificação (33× mais barato). Escale para GPT-5.5 apenas para síntese final em casos limítrofes.
Erros Comuns
Evite estes padrões que desperdiçam tokens.
- Enviar histórico completo da conversa em cada chamada: Solução: Resuma a cada 5 turnos ou use cache de prompt se a API suportar.
- Usar modelo de alta capacidade para tarefas simples: Não use GPT-5.5 para "extraia a data deste e-mail". Use GPT-5.5 mini ou Haiku. Diferença de custo: 33× nesta tarefa.
- Não limitar o comprimento da saída: Um prompt vago pode retornar 500 tokens quando "resuma em 50 palavras" retorna 60 tokens.
- Repetir system prompts longos em cada chamada: Use templates de system prompt ou cache em nível de solicitação.
Perguntas Frequentes
O que é um token em IA?
Um token é a menor unidade de texto que um modelo de IA processa — aproximadamente 3–4 caracteres ou ¾ de uma palavra em inglês. Você é cobrado por cada token de entrada e cada token de saída, com tokens de saída geralmente custando 2–5× mais.
Quanto custa o GPT-5.5 por token?
A partir de abril de 2026: GPT-5.5 custa $5,00 por 1M tokens de entrada e $15,00 por 1M tokens de saída. GPT-5.5 mini custa $0,15 por 1M de entrada e $0,60 por 1M de saída — 33× mais barato para tarefas que não requerem capacidade completa do GPT-5.5.
Como funcionam os limites de taxa?
Limites de taxa restringem solicitações por minuto (RPM) e tokens por minuto (TPM). Plano gratuito: 3–15 RPM, 40k–100k TPM. Plano pago: 500 RPM, 200k–500k TPM. Empresarial: 3.000+ RPM.
Quando devo usar um LLM local em vez de uma API cloud?
Use LLMs locais para: automação de alto volume (1.000+ chamadas/dia), dados sensíveis segundo a LGPD onde nenhum dado pessoal deve sair da sua infraestrutura, ou pipelines com custo crítico. Use APIs cloud para aplicações sensíveis à latência ou tarefas de raciocínio complexo.