Início/Prompt Engineering/Prompting em Diferentes Idiomas: Como Obter Resultados Consistentes

Casos de Uso por Setor

Prompting em Diferentes Idiomas: Como Obter Resultados Consistentes

Última atualização: April 2026·12 min de leitura·Por Hans Kuepper · Fundador da PromptQuorum, ferramenta de despacho multimodelo · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt

Os LLMs foram treinados principalmente em inglês — fazer prompting em francês, alemão, japonês ou árabe ativa uma região diferente do conhecimento do modelo, com menor precisão e maior custo de tokens. Use prompts de sistema em inglês para o raciocínio, instruções no idioma-alvo para formalidade, e sempre declare explicitamente o idioma de saída.

Pontos principais

Os modelos de linguagem cometem até 5–15% mais erros em idiomas de nível 3+ do que em inglês (Ahuja et al., benchmark MEGA 2023).
Prompts de sistema em inglês combinados com entradas de usuário em português produzem melhores resultados em tarefas estruturadas do que prompts de sistema puramente em português.
1.000 palavras em inglês ≈ 1.300 tokens; o mesmo conteúdo em árabe ≈ 1.900 tokens — 46% mais caro na fatura da API.
Mistral Large 2 lidera em alemão/francês/espanhol; Google Gemini 3.0 Pro em japonês/coreano/chinês; GPT-5.5 em árabe.
Os exemplos few-shot devem estar no idioma-alvo — exemplos mal correspondidos reduzem a precisão em ~20% (Shi et al., 2023).
Declare sempre o idioma de saída explicitamente no prompt de sistema: "Responda em português brasileiro formal (tratamento de você)." — nunca assuma que o modelo adotará automaticamente o idioma do usuário.

Dados rápidos

46% dos dados de treinamento do CommonCrawl são inglês; apenas 3% chinês, 5% francês, 6% alemão.
1.900 tokens para 1.000 palavras em árabe (46% mais que inglês); 900 tokens para chinês (31% menos).
5–12% de ganho de precisão usando raciocínio Chain-of-Thought em inglês com saída no idioma-alvo (idiomas de nível 3).
15–20% de perda de precisão com exemplos few-shot em inglês para tarefas em outros idiomas (Shi et al., 2023).
Mistral Large 2 lidera em idiomas românicos; Gemini 3.0 Pro em idiomas do Leste Asiático; GPT-5.5 em árabe.

Por que o idioma importa mais do que você imagina

💬 In Plain Terms

Em termos simples: os LLMs aprenderam inglês de bilhões de livros, sites e artigos. Português de milhões. Quando você faz uma pergunta em português, o modelo tem menos exemplos para se apoiar — por isso comete mais erros, assim como você resolveria exercícios de matemática pior em um idioma que aprendeu há poucas semanas do que na sua língua materna.

O prompting multilíngue não é tradução — ativa uma parte diferente da distribuição aprendida do modelo. Os LLMs tokenizam e representam o texto em um espaço de embedding comum, mas os dados de treinamento são muito enviesados: o CommonCrawl (usado para treinar a maioria dos LLMs) consiste em ~46% de inglês, ~6% de alemão, ~5% de francês, ~3% de chinês. Idiomas com menos de 1% de participação no treinamento se comportam de forma imprevisível.

Quando você faz prompting em português, o modelo se apoia em padrões dos dados de treinamento em português. Como o português representa apenas ~3% do corpus de treinamento, o modelo tem significativamente menos associações aprendidas em comparação com os prompts em inglês. Isso se manifesta em: menor precisão de raciocínio, seguimento de instruções inconsistente, taxas de alucinação mais altas e qualidade de saída imprevisível.

O modelo de idiomas de 4 níveis

📍 In One Sentence

Maior participação no treinamento = mais padrões aprendidos = saídas mais confiáveis; nível 1 (inglês) ~46%, nível 2 (idiomas europeus) ~5–8%, nível 3 (Ásia/árabe) ~2–4%, nível 4 (<1%) requer Geração Aumentada por Recuperação.

O desempenho dos idiomas nos LLMs segue uma hierarquia de quatro níveis baseada na participação no treinamento. O nível 1 (inglês) alcança resultados quase perfeitos; o nível 4 (idiomas com poucos recursos) produz saídas pouco confiáveis. Use o mapeamento de níveis para determinar a estratégia correta para o seu idioma-alvo.

Nível	Idiomas	Participação no treinamento (aprox.)	Estratégia recomendada
Nível 1	Inglês	~46%	Fazer prompting diretamente, todas as técnicas funcionam
Nível 2	Alemão, francês, espanhol, português, italiano	5–8% cada	Prompts de usuário no idioma-alvo, prompt de sistema em inglês para a estrutura
Nível 3	Chinês, japonês, coreano, árabe, russo	2–4% cada	CoT em inglês + saída no idioma-alvo, testar outputs rigorosamente
Nível 4	A maioria dos outros idiomas	<1%	Usar RAG com conteúdo verificado; não usar saídas generativas sem revisão humana

Custos de tokens por escrita

O mesmo texto de 1.000 palavras custa 46% mais em tokens em árabe do que em inglês e 31% mais em russo — isso impacta diretamente sua fatura da API. A eficiência de tokens varia significativamente de acordo com o sistema de escrita e a família de idiomas.

Idioma	Escrita	Tokens (aprox.)	vs. inglês	Fator de custo API
Inglês	Latino	~1.300	Base	1,0×
Alemão	Latino	~1.500	+15%	1,15×
Francês	Latino	~1.450	+12%	1,12×
Espanhol	Latino	~1.400	+8%	1,08×
Russo	Cirílico	~1.700	+31%	1,31×
Chinês (simplificado)	CJK	~900	−31%	0,69×
Japonês	CJK + Kana	~1.100	−15%	0,85×
Coreano	Hangul	~1.400	+8%	1,08×
Árabe	Árabe	~1.900	+46%	1,46×

Seu prompt de sistema deve estar em inglês?

Para tarefas de raciocínio e estruturadas, os prompts de sistema em inglês superam os prompts de sistema no idioma-alvo em idiomas de nível 2 e nível 3. Para tom e formalidade, as instruções no idioma-alvo são superiores. Esta é a decisão mais importante no prompting multilíngue.

Por quê? A maior parte da capacidade de seguimento de instruções dos LLMs foi treinada em dados RLHF (Reinforcement Learning from Human Feedback) em inglês. As instruções de sistema complexas (regras de formato, personas, diretivas Chain-of-Thought) são seguidas de forma mais confiável quando escritas em inglês.

Árvore de decisão: Regras de raciocínio/formato complexas → prompt de sistema em inglês. Registro de formalidade (você, vous, keigo) → idioma-alvo. Definição de persona → inglês + um exemplo no idioma-alvo. Especificação do idioma de saída → sempre explícita no prompt de sistema: "Respond in formal Brazilian Portuguese (tratamento de você)."

❌ Prompt de sistema completamente em português: "Você é um assistente de atendimento ao cliente. Responda em português."

Why it hurts: As instruções complexas (tratamento de erros, estrutura, lógica) se perdem na tradução. O modelo tem dificuldade em seguir regras de formato de forma confiável.

Fix: Use inglês para as instruções do sistema: "You are a customer support assistant. Respond in Brazilian Portuguese using formal você form." Depois adicione instruções de registro e tom em português.

⚠️ Erro comum

Escrever o prompt de sistema e as instruções de usuário completamente no idioma-alvo frequentemente reduz significativamente a precisão de raciocínio. Use inglês para a lógica, o idioma-alvo para o tom.

💡 Dica Pro

Teste ambas as abordagens (sistema em inglês + raciocínio em inglês vs. sistema em inglês + raciocínio nativo) para o seu caso de uso específico. O comportamento do modelo varia de acordo com o nível do idioma.

Ruim vs. bom: prompt de sistema multilíngue

Prompt ruim — assume que o modelo reconhecerá o idioma e o registro:

"Resuma este contrato em português."

Resultado: saída misturada em português e inglês, registro informal, terminologia jurídica faltando.

Prompt bom — idioma, registro e caminho de raciocínio explícitos:

"You are a legal analyst. The following document is a Brazilian employment contract (contrato de trabalho). Summarise its key obligations in formal Brazilian Portuguese (tratamento de você). Structure: Partes do contrato, Remuneração, Prazos de aviso prévio, Cláusulas especiais. Maximum 200 words. Flag any clause that is unusual for standard Brazilian employment law with REVISAR."

Resultado: saída formal em português estruturada com terminologia específica do domínio e anomalias marcadas.

Quais modelos lidam melhor com quais idiomas?

Nenhum modelo individual domina todos os idiomas. Mistral Large 2 lidera em idiomas românicos; Google Gemini 3.0 Pro em idiomas do Leste Asiático; GPT-5.5 em árabe e tarefas de raciocínio multilíngue.

Modelo	Nível 2 (Europeu)	Nível 3 (Leste Asiático)	Árabe	Melhor caso de uso
GPT-5.5	✅ Forte	✅ Forte	✅ Melhor	Multilíngue geral, extração estruturada
Claude Opus 4.8	✅ Forte	✓ Bom	✓ Bom	Análise de documentos, tom com nuance
Gemini 3.0 Pro	✓ Bom	✅ Melhor	✓ Bom	Japonês/coreano/chinês, tradução
Mistral Large 2	✅ Melhor	⚠ Moderado	⚠ Moderado	Alemão/francês/espanhol, conteúdo empresarial
Qwen 3 72B	⚠ Moderado	✅ Forte	✓ Bom	Fluxos de trabalho em chinês (open-source)
Llama 3.3 70B	✓ Bom	⚠ Moderado	⚠ Moderado	Idiomas europeus, opção com consciência de custos

💡 Dica Pro

Com o PromptQuorum você pode enviar seu prompt para os 6 modelos simultaneamente e comparar as saídas lado a lado. Assim você identifica em um único envio qual modelo é mais adequado para a sua combinação específica de idioma e tarefa.

📌 Você sabia?

O desempenho do modelo varia não apenas por idioma, mas também por domínio. Um modelo pode oferecer excelentes resultados em tradução técnica para o japonês, mas falhar no tom de atendimento ao cliente em japonês.

Custo por caso de uso

As diferenças de custo de tokens se refletem diretamente em sua fatura da API. Aqui o impacto real baseado nos preços do GPT-5.5 (5 USD por milhão de tokens de entrada).

Caso de uso	Custo em inglês	Custo em árabe	Custo em japonês	Dica de economia
100 e-mails de clientes/dia	$X	$1,46X	$0,85X	Usar Gemini 3.0 Pro para japonês; orçar 46% extra para árabe
Resumo de relatório de 10.000 palavras	$Y	$1,46Y	$0,85Y	Processar em inglês, gerar a saída no idioma-alvo
500 descrições de produtos	$Z	$1,46Z	$0,85Z	Chinês é o mais econômico (0,69×)

Prompting Chain-of-Thought em diferentes idiomas

Para idiomas de nível 3, especificar a instrução Chain-of-Thought em inglês — ao mesmo tempo que se solicita a resposta final no idioma-alvo — melhora a precisão do raciocínio entre 5 e 12% (Shi et al., 2023). Esta técnica de CoT entre idiomas aproveita os pontos fortes de raciocínio do modelo em inglês, mantendo a qualidade de saída no idioma-alvo.

Modelo: `Think through this step by step in English, then write your final answer in Brazilian Portuguese. Question: pergunta`

Decisão: Usar CoT em inglês quando → a tarefa requer raciocínio em múltiplas etapas, o idioma-alvo é de nível 3+, a precisão é mais importante que a latência. Usar CoT nativo quando → o tom e o registro importam mais que a profundidade do raciocínio, o idioma-alvo é de nível 1–2.

⚠️ Nota

O CoT entre idiomas funciona para idiomas de nível 3, mas pode confundir modelos com idiomas de nível 4. Sempre teste em uma amostra pequena antes de usar em produção.

🛠️ Melhor prática

Para maior precisão: combine CoT entre idiomas com exemplos few-shot — mostre ao modelo um exemplo completo (raciocínio em inglês → resposta em português) antes de dar uma nova tarefa.

Exemplos few-shot e correspondência de idioma

Os exemplos few-shot devem estar no mesmo idioma que a tarefa — exemplos entre idiomas reduzem a precisão de saída em idiomas de nível 2 e nível 3 entre 15 e 20% (Shi et al., 2023). Os exemplos few-shot ensinam ao modelo o formato, o tom e os padrões. Se os exemplos estão em inglês, mas a tarefa está em português, o modelo recebe sinais contraditórios.

Duas estratégias: (1) Few-shot nativo — todos os exemplos no idioma-alvo (melhor qualidade). (2) Zero-shot + instruções explícitas — sem exemplos, mas com regras claras de estilo/formato em inglês (melhor opção quando não há exemplos nativos disponíveis). Evite: exemplos em inglês + tarefa em português = o pior dos dois mundos.

📌 Ponto-chave

Desequilíbrio de idioma nos exemplos: exemplos em inglês treinam o modelo no formato em inglês — depois ele tem que mudar de idioma e deduzir o formato simultaneamente, gerando uma carga cognitiva dupla e qualidade de saída inferior.

Formalidade, registro e tratamentos

Os LLMs usam registros informais por padrão na maioria dos idiomas. Se o seu caso de uso exige português formal (tratamento de você), japonês formal (丁寧語) ou o francês com vous, você deve declarar o registro explicitamente no prompt de sistema — o modelo não deduz isso do contexto. Isso é frequentemente ignorado e produz saídas que soam incorretas para os falantes nativos.

Idioma	Padrão do LLM	Instrução formal	Instrução informal
Alemão	Sie/du misturado	Verwende ausschließlich die Sie-Form.	Verwende die du-Form.
Francês	tu informal	Utilisez exclusivement le vouvoiement (Vous).	Utilise le tutoiement (tu).
Japonês	ですます (cortês)	Use 丁寧語 throughout.	Use plain form (だ体).
Português	você/informal misturado	Utilize exclusivamente o tratamento formal de você e tom profissional.	Use linguagem informal e descontraída.
Coreano	formal/informal misturado	Use formal 합쇼체 throughout.	Use informal 해요체.

🛠️ Melhor prática

Teste a aplicação do registro em 3–5 saídas de exemplo antes de ir para produção. Alguns modelos mudam para o registro informal no meio do texto apesar da instrução explícita.

Code-switching: quando os usuários misturam idiomas

Quando os usuários misturam idiomas (por exemplo, uma pergunta em português com um nome de marca em inglês ou um comentário de código em inglês), a maioria dos modelos responde no idioma dominante da solicitação — mas isso não é confiável sem instruções explícitas.

Abordagem recomendada: (1) No prompt de sistema: "Quando o usuário misturar idiomas, responda em idioma-alvo a menos que a pergunta esteja explicitamente em inglês." (2) Detecte o idioma programaticamente (langdetect, FastText, lingua-rs) antes de rotear para o modelo — não dependa de que o modelo o detecte. (3) Para apps multilíngues em produção: implemente uma etapa de detecção de idioma antes da chamada ao LLM.

⚠️ Aviso

Não confie nos modelos para detectar automaticamente o idioma de saída desejado no code-switching. Sempre inclua uma declaração de idioma explícita no prompt de sistema ou detecte o idioma programaticamente.

Modelos de prompts multilíngues reutilizáveis

Quatro padrões de modelo que você pode adaptar para seus próprios fluxos de trabalho multilíngues. Substitua os marcadores de posição conforme o seu caso de uso.

1
Prompt de sistema com consciência de idioma: "You are a role assistant for Company. Respond in idioma-alvo using registro de formalidade. If the user writes in a different language, still respond in idioma-alvo unless they explicitly request otherwise."
2
CoT entre idiomas (para idiomas de nível 3): "Think through this step by step in English. Write your final answer in Japonês/Árabe/Coreano."
3
Cabeçalho de few-shot nativo: "Here are 2 examples of the expected output format in idioma:\nExample 1: Exemplo no idioma-alvo\nExample 2: Exemplo no idioma-alvo\nNow complete the following: Tarefa"
4
Aplicação do registro: "Respond in formal idioma. Use instrução de registro específica. Do not switch to informal register regardless of how the user writes."

Como o PromptQuorum ajuda com fluxos multilíngues

Um prompt → múltiplos modelos → comparação de idiomas lado a lado. Envie o mesmo prompt em português para Mistral Large 2, Claude e GPT-5.5 e veja qual modelo oferece melhor registro, maior precisão e melhor tom — em um único envio.
9 frameworks de prompts integrados — todos suportam modelos multilíngues com marcadores de posição específicos do idioma.
Função de visualização de tokens por modelo — veja exatamente quantos tokens suas entradas em árabe ou alemão consomem antes de enviar — sem surpresas no orçamento.
Avisos de transbordamento de contexto para entradas multilíngues — alerta automaticamente quando o conteúdo em árabe ou russo esgota a janela de contexto do seu modelo.
Suporte para LLMs locais via Ollama/LM Studio — teste Qwen 3 ou Llama 4 em tarefas em chinês/japonês sem custos de API e compare as saídas com modelos na nuvem.
Comparação de saídas lado a lado — veja as diferenças exatas em registro, precisão e tom entre modelos no seu idioma-alvo.

Erros comuns

Traduzir o prompt sem adaptá-lo: "Simplesmente traduzir o prompt" produz resultados piores do que reformulá-lo para o idioma-alvo. Prompts traduzidos frequentemente contêm formulações não naturais que confundem o modelo.
Usar exemplos few-shot em inglês para tarefas em outros idiomas: Exemplos entre idiomas reduzem a precisão entre 15 e 20%. Use exemplos nativos no idioma-alvo.
Não especificar explicitamente o idioma de saída: Os modelos adivinham pelo contexto — e às vezes erram. Sempre adicione "Respond in idioma" no prompt de sistema.
Ignorar as diferenças de custo de tokens: Entradas em árabe e russo consomem entre 30 e 46% mais tokens do que os equivalentes em inglês. Planeje o orçamento adequadamente.
Testar apenas em inglês e assumir a mesma qualidade para outros idiomas: Saídas em idiomas diferentes do inglês requerem avaliação separada.
Forçar raciocínio complexo em idiomas de nível 4: Para idiomas com menos de 1% de participação no treinamento, as tarefas generativas frequentemente produzem respostas incorretas de aparência convincente. Use RAG com conteúdo verificado previamente.

Como configurar um fluxo de prompts multilíngue

1
Determine em qual nível(is) de idioma seu(s) idioma(s)-alvo se encaixam (níveis 1–4).
2
Escolha o modelo correto para cada idioma (Mistral Large 2 para idiomas românicos, Gemini 3.0 Pro para idiomas do Leste Asiático, GPT-5.5 para árabe).
3
Escreva um prompt de sistema em inglês com instrução explícita de idioma: "Respond in formal Brazilian Portuguese (tratamento de você)."
4
Prepare exemplos few-shot no idioma-alvo (pelo menos 2, idealmente 3).
5
Para idiomas de nível 3+: teste CoT — adicione: "Think step by step in English, then respond in idioma."
6
Use o despacho multi-modelo do PromptQuorum para comparar saídas de modelos para sua tarefa específica de idioma antes de se comprometer com um modelo.

Conformidade regional e considerações de dados

Brasil (LGPD / ANPD): A Lei Geral de Proteção de Dados (Lei nº 13.709/2018) e as diretrizes da ANPD (Autoridade Nacional de Proteção de Dados) exigem base legal para o processamento de dados pessoais por sistemas de IA. Ao processar dados de usuários brasileiros, sua API de LLMs deve ter um DPA (Data Processing Agreement) ou equivalente. Para conteúdo sensível, recomenda-se o processamento local. Os modelos que oferecem residência de dados no Brasil ou na América Latina são preferíveis para dados pessoais.

União Europeia (RGPD): Ao processar dados em alemão, francês, português europeu ou outros idiomas da UE, sua API de LLMs deve cumprir o Artigo 28 do RGPD (Acordo de Tratamento de Dados). Mistral Large 2 e Claude Opus 4.8 oferecem implantações conformes com a UE.

Japão (APPI): As empresas japonesas que usam LLMs multilíngues devem cumprir a Lei de Proteção de Informações Pessoais (APPI). Para soberania total de dados, recomenda-se o uso local de Qwen 3 72B para tarefas em japonês e chinês.

FAQ

Devo escrever meu prompt em inglês ou no idioma-alvo?

Para tarefas de raciocínio estruturado, escreva o prompt de sistema em inglês. Para tom e formalidade, escreva a mensagem do usuário e as instruções de registro no idioma-alvo.

Por que a IA tem desempenho inferior em idiomas diferentes do inglês?

Os conjuntos de dados de treinamento dos LLMs são dominados pelo inglês (~46% do CommonCrawl). Idiomas com menos de 5% de participação no treinamento têm menos padrões dos quais o modelo pode aprender, produzindo taxas de erro mais altas.

Qual modelo de IA lida melhor com o japonês?

Google Gemini 3.0 Pro lidera consistentemente em japonês, coreano e chinês. GPT-5.5 é um segundo próximo.

Quanto mais custam os prompts em árabe do que em inglês?

O texto em árabe usa aproximadamente 46% mais tokens do que o conteúdo equivalente em inglês. Planeje o orçamento adequadamente para aplicações em árabe de alto volume.

Preciso traduzir meus exemplos few-shot?

Sim. Os exemplos few-shot devem estar no mesmo idioma que sua saída esperada. Exemplos entre idiomas reduzem a precisão entre 15 e 20%.

O que é prompting Chain-of-Thought entre idiomas?

O CoT entre idiomas usa inglês para as etapas de raciocínio, mas solicita a resposta final no idioma-alvo. Para idiomas de nível 3, isso melhora a precisão do raciocínio entre 5 e 12%.

Como faço um LLM usar o português formal (tratamento de você)?

Adicione no seu prompt de sistema: "Utilize exclusivamente o tratamento formal de você e tom profissional." Os modelos usam registros mistos por padrão; esta instrução é necessária para aplicar o registro formal de forma consistente.

O que é code-switching no prompting multilíngue?

O code-switching ocorre quando um usuário escreve em uma mistura de idiomas. Sem instruções explícitas, os modelos respondem no idioma que detectam como dominante.

Posso usar o mesmo modelo de prompt em todos os idiomas?

Não. Cada nível de idioma requer uma estratégia diferente. O nível 1 funciona com qualquer prompt. Os níveis 2–3 precisam de estratégias específicas de CoT e few-shot. O nível 4 requer RAG.

Como o PromptQuorum ajuda com o prompting multilíngue?

O PromptQuorum despacha o mesmo prompt para múltiplos modelos simultaneamente e retorna as saídas lado a lado. Isso permite identificar qual modelo funciona melhor no seu idioma e tarefa específicos em um único envio.

Leitura relacionada

Prompt de sistema vs. prompt de usuário: O que vai onde? — Entender onde as instruções de idioma devem estar
Tokens, custos e limites: Um guia prático — Calcular o orçamento de tokens para entradas em idiomas diferentes do inglês
Prompting Chain-of-Thought: Como os LLMs mostram seu raciocínio — Técnicas de CoT entre idiomas
Prompting few-shot vs. zero-shot: Quando usar qual? — Escolher a estratégia de exemplos para tarefas multilíngues
Qual modelo de IA é o certo para a sua tarefa? — Seleção de modelo por idioma e tarefa

Fontes

Shi et al., 2023. "Language Models Are Multilingual Chain-of-Thought Reasoners." arXiv:2210.03057 — Benchmark MGSM: desempenho de CoT em 10 idiomas; base para os achados de CoT entre idiomas.
Ahuja et al., 2023. "MEGA: Multilingual Evaluation of Generative AI." arXiv:2303.12528 — 16 tarefas NLP em 70 idiomas; base para as afirmações de taxas de erro por nível de idioma.
Wei et al., 2022. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022 — Pesquisa fundamental de CoT.
OpenAI Tokenizer (tiktoken, cl100k_base) — Base para a tabela de comparação de contagens de tokens.

Aplique estas técnicas em mais de 25 modelos de IA simultaneamente com PromptQuorum.

Experimente o PromptQuorum grátis →

← Voltar para Prompt Engineering