Key Takeaways
- O Qwen3 8B é a melhor escolha prática: roda com 8 GB de VRAM via Ollama (`ollama run qwen3:8b`), com forte saída em português do Brasil
- Qwen3 14B / 32B para maior qualidade se você tiver 16 GB+ de VRAM (`ollama run qwen3:14b` / `ollama run qwen3:32b`)
- O Llama 3.1 8B é competitivo para o português e nativo do Ollama (`ollama run llama3.1:8b`)
- O Sabiá-3 (Maritaca AI) alcança qualidade em português próxima ao GPT-4o, mas NÃO está no Ollama — é necessário um download do HuggingFace
- Teste você mesmo a qualidade em PT-BR: escreva o prompt em PT-BR, verifique o uso de você/tu, o vocabulário e a gramática
- Evite modelos treinados principalmente em inglês para uso em produção voltado ao PT
Por que a escolha do modelo importa para o português do Brasil
A escolha do modelo tem um impacto desproporcional na qualidade da saída em português do Brasil. Modelos treinados principalmente com dados em inglês produzem erros gramaticais, vocabulário do português europeu (ficheiro em vez de arquivo, ecrã em vez de tela) e formas pronominais incorretas (tu em vez de você como pronome de sujeito padrão no português do Brasil).
Três fatores determinam a qualidade em PT-BR: o volume de texto em português nos dados de treinamento, a eficiência de tokenização para o vocabulário português e se o modelo passou por ajuste fino com instruções em português. Modelos com menos de 5% de dados de treinamento em português costumam produzir uma saída travada, que soa como tradução.
O Qwen3 foi treinado com aproximadamente 36 trilhões de tokens em 119 idiomas, o que lhe dá uma forte cobertura multilíngue. O Sabiá-3 da Maritaca AI foi criado especificamente para o português e alcança desempenho próximo ao GPT-4o em tarefas em português.
Para o português do Brasil, escolha um modelo com dados de treinamento multilíngues documentados — Qwen3, Llama 3.1 ou Sabiá-3 — para evitar o vocabulário do português europeu e formas pronominais incorretas.
O português tem duas variantes principais: português do Brasil (PT-BR) e português europeu (PT-PT). Eles diferem em vocabulário, gramática e uso de pronomes. "Você" é padrão no Brasil; "tu" é mais comum em Portugal. "Arquivo" (arquivo) e "tela" (tela) são brasileiros; "ficheiro" e "ecrã" são europeus. Um modelo que usa o português europeu por padrão soa artificial para usuários brasileiros e pode causar erros em documentos profissionais.
Melhores LLMs locais para português do Brasil 2026
Os modelos abaixo são classificados por uma combinação de qualidade da saída em português do Brasil, eficiência de VRAM e facilidade de instalação. Todos os modelos compatíveis com o Ollama podem ser baixados e executados com um único comando.
| Modelo | Tamanho | VRAM (Q4) | Qualidade PT-BR | No Ollama? | Melhor para |
|---|---|---|---|---|---|
| Qwen3 8B | 8B | ~7 GB | Muito boa | Sim (ollama run qwen3:8b) | Melhor escolha geral local em PT |
| Qwen3 14B | 14B | ~9 GB | Excelente | Sim (ollama run qwen3:14b) | Maior qualidade, mais nuance |
| Qwen3 32B | 32B | ~20 GB | Excelente+ | Sim (ollama run qwen3:32b) | Melhor qualidade com 24 GB de VRAM |
| Llama 3.1 8B | 8B | ~7 GB | Boa | Sim (ollama run llama3.1:8b) | PT geral, competitivo |
| Gemma 3 27B | 27B | ~18 GB | Boa | Sim (ollama run gemma3:27b) | Amplo suporte a idiomas (mais de 35) |
| Sabiá-3 | ~7B | ~7 GB | Próxima ao GPT-4o | Não (apenas HuggingFace) | Melhor qualidade em PT, mais difícil de rodar |
O Sabiá-3 NÃO está disponível no Ollama. Ele precisa ser baixado do HuggingFace (https://huggingface.co/maritaca-ai) e executado com llama.cpp ou LM Studio. Todos os outros modelos podem ser instalados com um único comando ollama pull.
Guia de VRAM para usuários de português do Brasil
A sua VRAM disponível determina quais modelos você pode rodar. Todas as recomendações pressupõem quantização Q4_K_M via Ollama ou llama.cpp.
- 8 GB de VRAM / 16 GB de RAM: Qwen3 8B (~7 GB), Llama 3.1 8B (~7 GB), Sabiá-3 (~7 GB via llama.cpp com download GGUF)
- 12 GB de VRAM: Todos os modelos de 8B com folga; Qwen3 14B em Q4_K_M (~9 GB)
- 16 GB de VRAM: Qwen3 14B com margem; Gemma 3 12B
- 24 GB de VRAM: Qwen3 32B (~20 GB), Gemma 3 27B (~18 GB)
- Apenas CPU (16 GB de RAM): Qwen3 8B a cerca de 2–4 tokens/seg via Ollama; utilizável para tarefas em lote, lento para chat interativo
Como rodar o Sabiá-3 (não está no Ollama)
O Sabiá-3 é desenvolvido pela Maritaca AI, uma empresa brasileira especializada em modelos de linguagem em português. Ele alcança desempenho próximo ao GPT-4o em tarefas em português e é o modelo de pesos abertos mais forte para o português do Brasil.
O Sabiá-3 não está disponível na biblioteca de modelos do Ollama. Para rodá-lo localmente, baixe os arquivos GGUF da página do HuggingFace da Maritaca AI em https://huggingface.co/maritaca-ai e execute-os com llama.cpp ou LM Studio. O LM Studio permite carregar GGUF diretamente do HuggingFace por meio de uma interface de busca integrada — pesquise "maritaca" no navegador de modelos do LM Studio.
A primeira geração do Sabiá (Sabiá-7B e Sabiá-65B) era baseada na arquitetura Llama. O Sabiá-3 dá continuidade a essa tradição de ajuste fino focado no português sobre um modelo base forte.
- Caminho de download: https://huggingface.co/maritaca-ai
- Rodar com: llama.cpp (CLI) ou LM Studio (GUI, recomendado para iniciantes)
- Requisito de VRAM: aproximadamente 7 GB em quantização Q4
- Observação: Não existe o comando `ollama run sabia` — o Sabiá não está na biblioteca do Ollama
Como testar a qualidade do português do Brasil
Não existe um único benchmark padronizado de português do Brasil equivalente aos benchmarks em inglês. O PoETa v2 é um benchmark de avaliação em português, mas a verificação de qualidade mais confiável é o teste prático com tarefas reais em PT-BR.
Sinais de saída ruim em PT-BR: usar "tu" como pronome de sujeito (convenção do português europeu), usar "ficheiro" em vez de "arquivo", usar "ecrã" em vez de "tela", frases truncadas que soam como tradução do inglês, conjugações verbais incorretas.
- Teste de e-mail empresarial: Peça ao modelo para escrever um e-mail empresarial formal em "português formal do Brasil" — verifique a forma você, "Prezado/a", o vocabulário empresarial brasileiro
- Verificação de vocabulário: Pergunte "Como se chama um arquivo de computador em português do Brasil?" — um bom modelo responde "arquivo"; um modelo mal ajustado pode responder "ficheiro"
- Forma pronominal: Escreva o prompt com "Como você está?" — verifique se as respostas seguintes usam "você" de forma consistente, e não "tu"
- Registro jurídico/formal: Peça uma cláusula contratual breve em PT-BR — verifique as formas corretas do subjuntivo e o vocabulário jurídico brasileiro
- Consciência regional: Pergunte "Qual é a diferença entre português do Brasil e português de Portugal?" — o modelo deve apresentar distinções precisas e seguras
Perguntas frequentes
Qual é o melhor LLM local para português do Brasil em 2026?
O Qwen3 8B é a melhor escolha prática: roda com 8 GB de VRAM via Ollama, treinado com 36 trilhões de tokens em 119 idiomas. Para máxima qualidade em PT-BR, o Sabiá-3 da Maritaca AI se aproxima do desempenho do GPT-4o, mas exige download do HuggingFace.
Consigo rodar LLMs locais em um notebook comum?
Sim. A maioria dos notebooks modernos com 16 GB de RAM consegue rodar o Qwen3 8B via Ollama a 2–4 tokens/seg apenas na CPU. Com uma GPU dedicada (8 GB de VRAM), a velocidade aumenta para 15–20 tokens/seg.
O que é o Sabiá e onde posso baixá-lo?
O Sabiá-3 é um modelo especializado em português da Maritaca AI, uma empresa brasileira. Baixe os arquivos GGUF em https://huggingface.co/maritaca-ai e execute com llama.cpp ou LM Studio. Ele não está disponível na biblioteca do Ollama.
O Qwen3 entende o português do Brasil de forma diferente do português europeu?
O Qwen3 lida com as duas variantes. Quando recebe o prompt em PT-BR (usando "você" e vocabulário brasileiro), ele responde em PT-BR. Indique explicitamente a variante que você quer para obter os melhores resultados.
O Llama 3.1 é bom para o português?
Sim, o Llama 3.1 8B está entre os três melhores modelos locais para o português em 2026. Ele está disponível via Ollama e produz boa saída em PT-BR para uso geral.
Como instalo o Ollama para uso em português do Brasil?
Instale o Ollama em ollama.com (o mesmo processo para todos os idiomas) e execute: ollama run qwen3:8b. Veja o guia completo de instalação do Ollama em /pt/local-llms/how-to-install-ollama.
Usar um LLM local ajuda na conformidade com a LGPD?
Sim. Rodar LLMs localmente significa que os dados permanecem na sua própria infraestrutura e não são enviados a provedores de nuvem de terceiros, o que simplifica a conformidade com a LGPD. Veja o artigo complementar sobre a LGPD para mais detalhes.
Qual benchmark testa LLMs em português?
O PoETa v2 é um benchmark de avaliação em português. Para uso prático, o teste manual com tarefas reais em PT-BR é a verificação de qualidade mais confiável, já que não existe um único benchmark padronizado de português do Brasil equivalente aos benchmarks em inglês.
O Qwen3 consegue lidar com a escrita empresarial formal em português do Brasil?
Sim. Escreva o prompt com "escreva em português formal do Brasil" ou "português brasileiro formal" para obter uma saída empresarial formal e consistente na forma você.
O que é o Tucano?
O Tucano é um modelo de linguagem em português de pesos abertos da C4AI-USP (Universidade de São Paulo). Ele foi projetado especificamente para o português e é eficiente em ambientes com recursos limitados. Disponível no HuggingFace.
Leitura relacionada
- Conformidade com a LGPD usando LLMs locais (Brasil 2026) — Como os LLMs locais simplificam a conformidade de dados com a LGPD
- Melhores LLMs locais para português do Brasil — Versão em Português
- LLMs locais multilíngues — Guia para rodar LLMs em vários idiomas
- O que são LLMs locais?
- Como instalar o Ollama
- Melhores LLMs locais 2026
- Conformidade com a LGPD — Versão em português
Fontes
- SiliconFlow (2026). "Best Open-Source LLM for Portuguese Language Tasks." — Os 3 melhores modelos para português, incluindo Qwen3 e Llama 3.1 8B
- Maritaca AI. "Sabiá-3 Model Card." HuggingFace — https://huggingface.co/maritaca-ai
- Qwen Team (2024). "Qwen Technical Report." arXiv — Dados de treinamento do Qwen3: 36 trilhões de tokens, 119 idiomas
- PoETa v2 benchmark — Kit de avaliação da língua portuguesa para LLMs
- C4AI-USP. "Tucano: Open-weight Portuguese LLM." HuggingFace