Skip to main content
PromptQuorumPromptQuorum
Início/LLMs locais/Configuração da janela de contexto no Ollama: 64K–1M tokens em Strix Halo, RTX, Mac 2026
Best Models

Configuração da janela de contexto no Ollama: 64K–1M tokens em Strix Halo, RTX, Mac 2026

·8 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

O Llama 4 Scout suporta até 10M de tokens de contexto (prático: 256K-1M em hardware de consumo). O DeepSeek V4-Flash entrega 1M de tokens. O Qwen 3.6 suporta 256K nativamente (extensível a 1M via YaRN). Enquanto os modelos 7B-8B se mantêm confiáveis em 16K-32K tokens, os novos modelos MoE e variantes de 70B+ estendem os limites práticos a 256K-1M. O Ollama usa 2048 por padrão -- defina num_ctx explicitamente para usar contexto longo.

A revolução do contexto 2026 já chegou. O Llama 4 Scout suporta até 10M de tokens de contexto (prático: 256K-1M), o DeepSeek V4-Flash entrega 1M de tokens, e o Qwen 3.6 suporta 256K tokens nativamente (extensível a 1M via YaRN). Embora a maioria dos modelos 7B-8B se estabilize em 16K-32K de contexto prático, os novos modelos MoE levam os limites práticos a 256K-1M tokens em hardware de consumo. O Ollama usa 2048 tokens por padrão -- este guia mostra quais modelos suportam o quê, os requisitos de RAM em cada nível e como configurar o contexto longo.

Slide Deck: Configuração da janela de contexto no Ollama: 64K–1M tokens em Strix Halo, RTX, Mac 2026

O slide deck cobre: comparação de modelos com janela de contexto de 128K (Llama 3.3, Qwen3, Mistral Small 3.1), uso de RAM em comprimentos de contexto 4K/32K/128K, o efeito "lost in the middle" e os limites práticos confiáveis (~32K para modelos 7B), e como configurar num_ctx no Ollama. Baixe o PDF como cartão de referência de LLM local de contexto longo.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • O Llama 4 Scout (MoE) suporta até 10M tokens. O DeepSeek V4-Flash e o Qwen 3.6 suportam 1M e 256K tokens respectivamente (extensível a 1M via YaRN). Maio de 2026 marca a primeira geração de modelos abertos capazes de milhões de tokens.
  • Contexto prático por tamanho de modelo: os modelos 7B-8B mantêm qualidade confiável em 16K-32K tokens. Os modelos de 70B+ e MoE estendem isso a 256K-1M tokens. O Llama 4 Scout consegue lidar com contextos completos de um milhão de tokens com VRAM suficiente.
  • A RAM escala com o comprimento do contexto E o tamanho do modelo. O Qwen 3.6 27B em Q4_K_M precisa de ~22 GB com 128K e ~65+ GB com 1M de tokens. O Llama 4 Scout precisa de mais de 150 GB para o contexto completo de 10M.
  • O problema "Lost in the Middle" continua válido: os LLMs perdem detalhes das seções centrais do contexto. Mitigação: mantenha a informação crítica no início do prompt, use RAG para buscas ou processe em fragmentos sobrepostos.
  • O contexto longo se destaca na análise holística de documentos completos (bases de código, contratos, livros). O RAG se destaca em tarefas de busca intensiva em muitos documentos. Escolha conforme o tipo de tarefa, não só pelo tamanho do contexto.
  • O Ollama usa 2048 tokens por padrão -- não 128K nem 1M. Defina num_ctx explicitamente em um Modelfile para acessar o contexto completo. Para contextos massivos (500K+), ajuste a implementação de atenção para evitar OOM.

O que é o comprimento de contexto e por que ele importa para os LLMs locais?

O comprimento de contexto é o número máximo de tokens que um modelo consegue processar em uma única chamada de inferência -- o tamanho combinado da entrada (seu documento, o histórico de conversa, o prompt de sistema) e da saída (a resposta do modelo). Um token ≈ 0,75 palavra em português; 128K tokens ≈ 96.000 palavras.

Para os casos de uso de LLMs locais, o contexto longo permite: resumir livros inteiros ou relatórios longos, analisar bases de código completas em um único prompt, processar horas de transcrições de reuniões e manter históricos de conversa longos sem perder o contexto anterior.

A distinção-chave é entre o comprimento de contexto anunciado (o que a arquitetura do modelo suporta) e o comprimento de contexto prático (onde a qualidade se mantém confiável). Um modelo pode tecnicamente suportar 128K tokens, mas mostrar qualidade degradada na informação apresentada no token de número 100K.

Quais LLMs locais suportam contexto de 128K tokens em 2026?

ModeloJanela de contextoLimite práticoComando Ollama
Llama 3.3 8B128K~32K confiávelollama run llama3.2
Llama 3.2 3B128K~16K confiávelollama run llama3.2:3b
Llama 3.3 70B128K~64K confiávelollama run llama3.3:70b
Qwen3 7B128K~32K confiávelollama run qwen2.5:7b
Qwen3 72B128K~64K confiávelollama run qwen2.5:72b
Mistral Small 3.1 24B128K~32K confiávelollama run mistral-small3.1
Gemma 2 2B8K~6K confiávelollama run gemma2:2b
Mistral Small v0.332K~16K confiávelollama run llama3.2
6 modelos LLM locais com suporte a contexto 128K -- o limite prático confiável é 32K para modelos 7B e 64K para modelos 70B.
6 modelos LLM locais com suporte a contexto 128K -- o limite prático confiável é 32K para modelos 7B e 64K para modelos 70B.

Quanta RAM o processamento de contexto longo precisa?

O uso de RAM escala tanto com o tamanho do modelo quanto com o comprimento do contexto. O cache KV (cache chave-valor) armazena os estados de atenção de todos os tokens processados -- isso cresce linearmente com o comprimento do contexto.

A partir de abril de 2026, um modelo 7B em Q4_K_M com 4K de contexto usa ~6 GB de RAM. O mesmo modelo com 32K de contexto usa ~8-9 GB de RAM. Com 128K de contexto: ~12-16 GB de RAM.

ModeloContexto 4KContexto 32KContexto 128K
Llama 3.3 8B Q4_K_M~6 GB~9 GB~14 GB
Qwen3 14B Q4_K_M~9 GB~12 GB~18 GB
Mistral Small 3.1 24B Q4_K_M~14 GB~17 GB~24 GB
Llama 3.3 70B Q4_K_M~40 GB~45 GB~55 GB
A RAM do cache KV escala com o comprimento do contexto -- um modelo 7B em Q4_K_M precisa de ~6 GB com 4K de contexto, mas ~14 GB com 128K.
A RAM do cache KV escala com o comprimento do contexto -- um modelo 7B em Q4_K_M precisa de ~6 GB com 4K de contexto, mas ~14 GB com 128K.

Por que o contexto prático é mais curto que o máximo anunciado?

Os LLMs treinados com codificações de posição RoPE (usadas por Llama, Qwen, Mistral) conseguem tecnicamente processar tokens até o seu comprimento máximo de contexto, mas a qualidade se degrada com um padrão conhecido chamado efeito "lost in the middle".

As pesquisas mostram que os modelos de linguagem aproveitam melhor a informação no início e no fim da janela de contexto. A informação colocada no meio de um contexto muito longo é recuperada com menos confiabilidade. Na prática, um modelo com janela de 128K de contexto pode responder perguntas sobre o conteúdo dos primeiros 32K tokens e dos últimos 16K tokens de forma confiável, mas perder detalhes da faixa de 40K-80K tokens.

Para os modelos locais em particular, o limite prático confiável escala com o tamanho do modelo: os modelos 3B ≈ 8K-16K confiável; os modelos 7B-8B ≈ 16K-32K confiável; os modelos 70B ≈ 64K confiável. Estas são aproximações -- o limite real depende da tarefa específica e de quão "importante" é a informação recuperada.

As janelas de contexto longo permitem mais entrada, mas a estrutura do prompt determina se o modelo usa esse contexto de forma eficaz. Técnicas como RAG, encadeamento de prompts e estratégias de gestão de janelas de contexto são cobertas no guia de engenharia de prompts.

O efeito "lost in the middle": os LLMs recuperam o conteúdo no início e no fim da janela de contexto de forma confiável, mas perdem a faixa de 40K-80K tokens.
O efeito "lost in the middle": os LLMs recuperam o conteúdo no início e no fim da janela de contexto de forma confiável, mas perdem a faixa de 40K-80K tokens.

Como se configura o comprimento de contexto no Ollama?

O Ollama usa 2048 tokens de contexto por padrão, a menos que configurado de outra forma. Para usar a janela de contexto completa de um modelo:

O tamanho da janela de contexto determina quanto texto um modelo consegue processar, mas a estrutura do prompt determina com que eficácia ele usa esse contexto. Para se aprofundar em por que os modelos perdem o rastro da entrada anterior e nas estratégias para mitigar isso, consulte janelas de contexto explicadas: por que a IA esquece.

bash
# Set context length at runtime
ollama run llama3.2 --ctx 32768

# Or create a custom model with a Modelfile
cat << EOF > Modelfile
FROM llama3.1:8b
PARAMETER num_ctx 32768
EOF
ollama create llama3.1-32k -f Modelfile
ollama run llama3.1-32k
Configurar num_ctx 32768 em um Modelfile desbloqueia o contexto de 32K no Ollama -- verificado com `ollama ps` mostrando a coluna CTX.
Configurar num_ctx 32768 em um Modelfile desbloqueia o contexto de 32K no Ollama -- verificado com `ollama ps` mostrando a coluna CTX.

LLMs locais de contexto longo: contexto regional

UE / GDPR + Lei de IA e Brasil / LGPD: A Lei de IA da UE (em vigor desde fevereiro de 2025) classifica os sistemas de IA que processam dados pessoais em larga escala como potencialmente de alto risco. A inferência local de contexto longo para análise de documentos jurídicos, resumo de prontuários médicos ou processamento de documentos de RH se enquadra nesse nível de risco. Rodar localmente elimina o risco do operador de dados terceirizado segundo o Artigo 28 do GDPR (e o art. 39 da LGPD brasileira) -- nenhum dado sai da organização.

Para a conformidade com sistemas de IA que processam documentos sensíveis localmente: a configuração recomendada é um modelo 7B em Q4_K_M com 32K de contexto (cabe em 9-10 GB de RAM em uma estação de trabalho padrão). Isso oferece qualidade confiável em documentos de até 50 páginas mantendo todos os dados nas instalações. Llama 3.3 8B e Mistral Small 3.1 são as opções recomendadas para conformidade no processamento de documentos de contexto longo.

Para diretrizes sobre IA e dados pessoais (como as da CNIL francesa ou da ANPD brasileira): a inferência local via Ollama sem chamadas a APIs externas satisfaz o requisito de que os dados pessoais não sejam processados por provedores externos de IA sem uma base legal válida.

Japão (METI): Os documentos japoneses exigem 1,5-2 vezes mais tokens que os documentos equivalentes em inglês por causa das diferenças do tokenizador. Um relatório japonês de 50 páginas pode consumir 25K-35K tokens -- dentro da faixa confiável do Qwen3 7B (limite prático 32K), mas exigindo configuração explícita do contexto no Ollama: PARAMETER num_ctx 32768. Para documentos jurídicos e financeiros em japonês, o Qwen3 14B em Q4_K_M com 32K de contexto (~12 GB de RAM) oferece a melhor relação qualidade/RAM para processamento de contexto longo em japonês. O tokenizador nativo em japonês do Qwen3 processa texto japonês 30-40% mais eficientemente que o Llama.

China: Sob a Lei de Segurança de Dados da China (数据安全法), o processamento de documentos sensíveis via APIs em nuvem exige conformidade regulatória adicional. A inferência local de contexto longo via Qwen3 (Alibaba) mantém todo o conteúdo dos documentos nas instalações. Para o processamento empresarial de documentos em chinês, o Qwen3 72B com 32K de contexto em uma estação de trabalho local (~45 GB de RAM) oferece qualidade quase equivalente à nuvem com total soberania de dados. O tokenizador nativo em chinês do Qwen3 o torna 30-40% mais eficiente em tokens que o Llama para documentos em chinês.

Erros comuns com os LLMs locais de contexto longo

  • Supor que o contexto de 128K funciona tão bem quanto 4K: O efeito "lost in the middle" significa que a informação apresentada há 30K-80K tokens é recuperada com menos confiabilidade que a informação no início ou no fim. Para análise de documentos críticos, divida os documentos longos em seções de 16K-32K e processe cada uma separadamente em vez de alimentar um documento inteiro de 100K de uma vez.
  • Não aumentar o tamanho de contexto padrão do Ollama: O Ollama usa 2048 tokens de contexto por padrão, independentemente do máximo do modelo. Uma conversa que ultrapasse os 2048 tokens vai truncar as mensagens anteriores. Sempre defina num_ctx explicitamente: adicione PARAMETER num_ctx 32768 ao seu Modelfile ou use --ctx em tempo de execução.
  • Rodar contexto longo com RAM insuficiente: Um modelo 7B com contexto de 128K em 8 GB de RAM total causa uso severo de swap. Os pesos do modelo (~4,5 GB) mais o cache KV de 128K (~8+ GB) ultrapassam os 8 GB. Reduza o contexto para 32K (cabe em ~9 GB) ou use 16+ GB de RAM para inferência com contexto de 128K.
  • Esquecer que a velocidade de geração não é o único fator de latência com contexto longo: Com 32K de contexto, o tempo até o primeiro token (TTFT) pode ser de 5-15 segundos em hardware de consumo -- o modelo precisa processar os 32K tokens de entrada antes de gerar um único token de saída. Essa fase de prefill escala linearmente com o comprimento do contexto. Para uso interativo, limite o contexto a 8K-16K. Reserve contextos de 32K+ para o processamento em lote, onde o TTFT é aceitável.
  • Usar RAG quando o contexto longo é a ferramenta certa (e vice-versa): O RAG é melhor para buscar em muitos documentos. O contexto longo é melhor quando você precisa que o modelo raciocine sobre um documento completo e coerente -- um contrato, uma base de código, um capítulo de livro -- onde perder qualquer parte quebraria a análise. Dividir um contrato jurídico de 10 páginas em fragmentos para RAG pode causar erros de referências cruzadas que o contexto longo evita. Escolha conforme o tipo de tarefa, não por preferência padrão.

Perguntas frequentes

Posso resumir um livro inteiro com um LLM local?

Um livro típico de 300 páginas tem 90.000-120.000 palavras -- aproximadamente 120K-160K tokens. Isso supera o contexto confiável prático da maioria dos modelos 7B e exige um modelo de 70B (64K confiável) ou processamento por fragmentos. Para modelos 7B, divida o livro em capítulos de 20K palavras, resuma cada um e depois resuma os resumos dos capítulos.

Quantas páginas de texto cabem em 32K tokens?

Aproximadamente 50-70 páginas de texto padrão (250 palavras por página). Um contexto de 32K tokens pode conter um romance curto, um artigo de pesquisa completo com apêndices ou um documento de especificação técnica completo.

Aumentar o comprimento de contexto deixa a inferência mais lenta?

Sim -- processar um contexto de 32K leva cerca de 3-4 vezes mais que processar um contexto de 4K no mesmo hardware, por causa do escalonamento quadrático do cálculo de atenção. A velocidade de geração (tokens por segundo) não é afetada de forma significativa, mas o tempo até o primeiro token (TTFT) escala com o comprimento da entrada.

Qual LLM local lida melhor com RAG que com contexto longo?

Para tarefas de busca e recuperação de documentos, o RAG (geração aumentada por recuperação) costuma ser mais eficaz que alimentar documentos completos como contexto. O RAG recupera os 3-5 fragmentos mais relevantes de um grande conjunto de documentos e fornece apenas esses ao modelo. Isso usa 4K-8K tokens de contexto e evita o problema "lost in the middle". Ferramentas como GPT4All LocalDocs e LlamaIndex implementam RAG local.

O que é o cache KV e por que ele cresce com o comprimento do contexto?

O cache KV (cache chave-valor) armazena os estados de atenção de cada token processado na janela de contexto. Cada token exige uma quantidade fixa de memória para seus vetores chave e valor -- por isso um contexto de 32K exige 8 vezes mais memória de cache KV que um de 4K. É por isso que um modelo 7B em Q4_K_M precisa de ~6 GB para 4K de contexto, mas ~9 GB para 32K. Os pesos do modelo não mudam -- só o cache KV cresce.

Os modelos locais conseguem lidar com contextos de 1M tokens como o Gemini 3.1 Pro?

Não -- a partir de abril de 2026, nenhum modelo executável localmente suporta contextos de 1M tokens. A janela de 1M tokens do Gemini 3.1 Pro exige a infraestrutura TPU do Google. Localmente, 128K é o máximo suportado pelo hardware de consumo atual. Para tarefas que exigem contextos de 1M+ tokens, as APIs em nuvem continuam sendo a única opção prática.

O que é o problema "lost in the middle" e como eu o evito?

As pesquisas mostram que os LLMs recuperam de forma confiável a informação do início e do fim da janela de contexto, mas perdem detalhes do meio. Para um contexto de 128K, o conteúdo colocado nos tokens 40K-80K é o mais provável de ser ignorado. Para evitar: mantenha a informação importante no início do prompt, use RAG para recuperar só os fragmentos relevantes, ou processe documentos longos em seções sobrepostas de 16K-32K.

Como verifico qual comprimento de contexto o Ollama está usando?

Execute `ollama show <modelo>` -- a saída lista os parâmetros incluindo num_ctx. Se mostrar 2048, o Ollama está usando o valor padrão, não a janela de contexto completa do modelo. Para mudar de forma persistente, crie um Modelfile com PARAMETER num_ctx 32768 e execute ollama create <nome> -f Modelfile. Verifique as sessões ativas com ollama ps.

É melhor contexto longo ou RAG para perguntas e respostas sobre documentos?

O RAG costuma ser mais eficaz e eficiente em RAM que o contexto longo para perguntas e respostas sobre documentos. O RAG recupera 3-5 fragmentos relevantes (4K-8K tokens no total) de um corpus grande e evita o problema "lost in the middle". O contexto longo é melhor quando o modelo precisa entender a estrutura completa do documento ou quando a ordem exata e as relações entre seções são importantes. Para a maioria das perguntas e respostas práticas sobre documentos, comece com RAG.

Fontes

Precisa do hardware para rodar modelos com contexto de 128K+? Comece pelo guia de hardware.

Guia de hardware para LLM local 2026 →

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

LLM local contexto longo 2026: 64K a 1M tokens no Ollama