PromptQuorumPromptQuorum
Accueil/LLMs locaux/LLMs locaux avec long contexte 2026 : Quels modèles gèrent 32K, 128K tokens localement ?
Best Models

LLMs locaux avec long contexte 2026 : Quels modèles gèrent 32K, 128K tokens localement ?

·8 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

La plupart des modèles LLM locaux en 2026 prennent en charge sur le papier des fenêtres de contexte de 128K tokens, mais le contexte utilisable pratique -- où la qualité reste élevée -- est généralement de 16K-32K tokens. Llama 3.1/3.2/3.3, Qwen2.5 et Mistral Small 3.1 prennent tous en charge le contexte 128K. Traiter des documents ou des livres longs localement nécessite de comprendre la mise à l'échelle RAM et la dégradation de la qualité sur les longues plages.

Présentation: LLMs locaux avec long contexte 2026 : Quels modèles gèrent 32K, 128K tokens localement ?

La présentation couvre : comparaison des modèles à fenêtre 128K tokens (Llama 3.1, Qwen2.5, Mistral Small 3.1), RAM selon la longueur de contexte 4K/32K/128K, l'effet « perdu au milieu » avec limites pratiques (~32K pour les 7B) et comment configurer num_ctx dans Ollama. Téléchargez le PDF comme carte de référence LLM local long contexte.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Llama 4 Scout (MoE) supporte jusqu'à 10M tokens. DeepSeek V4-Flash et Qwen 3.6 supportent 1M et 256K tokens respectivement (extensible à 1M via YaRN). Mai 2026 marque la première génération de modèles open source capables de millions de tokens.
  • Contexte pratique par taille de modèle : les modèles 7B-8B maintiennent une qualité fiable à 16K-32K tokens. Les modèles 70B+ et MoE étendent cela à 256K-1M tokens.
  • La RAM évolue avec la longueur du contexte ET la taille du modèle. Qwen 3.6 27B en Q4_K_M nécessite ~22 Go à 128K, ~65+ Go à 1M tokens.
  • Le problème "Lost in the Middle" persiste : les LLMs manquent des détails des sections centrales du contexte. Solutions : garder les informations critiques au début du prompt, utiliser le RAG pour la recherche, ou traiter en blocs chevauchants.
  • Le long contexte excelle pour l'analyse holistique de documents complets (bases de code, contrats, livres). Le RAG excelle pour les tâches de recherche sur de nombreux documents.
  • Ollama utilise 2048 tokens par défaut -- pas 128K ni 1M. Définir num_ctx explicitement dans un Modelfile pour accéder au contexte complet.

Qu'est-ce que la longueur de contexte et pourquoi est-ce important pour les LLMs locaux ?

La longueur de contexte est le nombre maximum de tokens qu'un modèle peut traiter dans un seul appel d'inférence -- la taille combinée de l'entrée (document, historique de conversation, prompt système) et de la sortie (réponse du modèle). Un token ≈ 0,75 mots en français ; 128K tokens ≈ 96 000 mots.

Pour les LLMs locaux, un long contexte permet : résumer des livres entiers ou de longs rapports, analyser des bases de code complètes en un seul prompt, traiter des heures de transcriptions, et maintenir de longues conversations sans perdre le contexte antérieur.

La distinction clé est entre la longueur de contexte annoncée (ce que l'architecture supporte) et la longueur de contexte pratique (où la qualité reste fiable). Un modèle peut techniquement supporter 128K tokens mais montrer une qualité dégradée au-delà de la marque des 100K tokens.

Quels LLMs locaux supportent 128K tokens de contexte en 2026 ?

ModèleFenêtre de contexteLimite pratiqueCommande Ollama
Llama 3.1 8B128K~32K fiableollama run llama3.2
Llama 3.2 3B128K~16K fiableollama run llama3.2:3b
Llama 3.3 70B128K~64K fiableollama run llama3.3:70b
Qwen2.5 7B128K~32K fiableollama run qwen2.5:7b
Qwen2.5 72B128K~64K fiableollama run qwen2.5:72b
Mistral Small 3.1 24B128K~32K fiableollama run mistral-small3.1
Gemma 2 2B8K~6K fiableollama run gemma2:2b
Mistral 7B v0.332K~16K fiableollama run llama3.2
6 modèles LLM locaux avec support de contexte 128K -- limite fiable pratique de 32K pour les 7B, 64K pour les 70B.
6 modèles LLM locaux avec support de contexte 128K -- limite fiable pratique de 32K pour les 7B, 64K pour les 70B.

Combien de RAM le traitement de long contexte nécessite-t-il ?

L'utilisation RAM évolue avec la taille du modèle et la longueur du contexte. Le cache KV stocke les états d'attention pour tous les tokens traités -- il croît linéairement avec la longueur du contexte.

Un modèle 7B en Q4_K_M avec contexte 4K utilise ~6 Go de RAM. Le même modèle avec contexte 32K utilise ~8-9 Go. Avec contexte 128K : ~12-16 Go.

ModèleContexte 4KContexte 32KContexte 128K
Llama 3.1 8B Q4_K_M~6 Go~9 Go~14 Go
Qwen2.5 14B Q4_K_M~9 Go~12 Go~18 Go
Mistral Small 3.1 24B Q4_K_M~14 Go~17 Go~24 Go
Llama 3.3 70B Q4_K_M~40 Go~45 Go~55 Go
La RAM du cache KV évolue avec la longueur du contexte -- un modèle 7B en Q4_K_M nécessite ~6 Go à 4K, mais ~14 Go à 128K.
La RAM du cache KV évolue avec la longueur du contexte -- un modèle 7B en Q4_K_M nécessite ~6 Go à 4K, mais ~14 Go à 128K.

Pourquoi le contexte pratique est-il plus court que le maximum annoncé ?

Les LLMs entraînés avec des encodages RoPE (Llama, Qwen, Mistral) peuvent techniquement traiter des tokens jusqu'à leur longueur maximale, mais la qualité se dégrade selon l'effet "perdu au milieu".

Les modèles utilisent le mieux les informations au début et à la fin de la fenêtre de contexte. Les informations au milieu d'un très long contexte sont récupérées moins fiablement. En pratique, un modèle 128K peut répondre fiablement aux questions sur le contenu dans les premiers 32K et derniers 16K tokens, mais rater les détails de la plage 40K-80K.

Limites fiables pratiques par taille : modèles 3B ≈ 8K-16K ; modèles 7B-8B ≈ 16K-32K ; modèles 70B ≈ 64K fiable.

Les longues fenêtres permettent plus d'entrée, mais la structure du prompt détermine l'utilisation effective du contexte. Voir le guide prompt engineering pour les stratégies RAG et de gestion du contexte.

L'effet "perdu au milieu" : les LLMs rappellent fiablement le contenu au début et à la fin, mais ratent la plage 40K-80K tokens.
L'effet "perdu au milieu" : les LLMs rappellent fiablement le contenu au début et à la fin, mais ratent la plage 40K-80K tokens.

Comment définir la longueur de contexte dans Ollama ?

Ollama utilise par défaut 2048 tokens de contexte sauf configuration contraire. Pour utiliser la fenêtre de contexte complète d'un modèle :

Voir fenêtres de contexte expliquées : pourquoi l'IA oublie pour les stratégies de gestion du contexte.

bash
# Set context length at runtime
ollama run llama3.2 --ctx 32768

# Or create a custom model with a Modelfile
cat << EOF > Modelfile
FROM llama3.1:8b
PARAMETER num_ctx 32768
EOF
ollama create llama3.1-32k -f Modelfile
ollama run llama3.1-32k
PARAMETER num_ctx 32768 dans un Modelfile déverrouille le contexte 32K dans Ollama -- vérifier avec `ollama ps` colonne CTX.
PARAMETER num_ctx 32768 dans un Modelfile déverrouille le contexte 32K dans Ollama -- vérifier avec `ollama ps` colonne CTX.

LLMs locaux à long contexte : contexte régional

UE / RGPD + Loi IA : La loi IA de l'UE (en vigueur depuis février 2025) classe les systèmes d'IA traitant des données personnelles à grande échelle comme potentiellement à haut risque. L'inférence locale de long contexte pour l'analyse juridique, la synthèse de dossiers médicaux ou le traitement RH relève de ce niveau de risque. L'exécution locale élimine le risque du processeur tiers au titre de l'article 28 du RGPD.

Pour la conformité BSI/ANSSI : la configuration recommandée est un modèle 7B en Q4_K_M avec contexte 32K (~9-10 Go RAM). Llama 3.1 8B et Mistral Small 3.1 sont les choix recommandés pour la conformité UE.

Pour les directives CNIL : l'inférence locale via Ollama sans appels API externes satisfait à l'exigence que les données personnelles ne soient pas traitées par des prestataires tiers sans base légale valide.

Japon (METI) : Les documents japonais nécessitent 1,5-2× plus de tokens que les équivalents anglais. Le tokeniseur japonais natif de Qwen2.5 traite le texte japonais 30-40% plus efficacement que Llama.

Chine : En vertu de la Loi sur la sécurité des données (数据安全法), le traitement de documents sensibles via des APIs cloud nécessite une conformité supplémentaire. L'inférence locale via Qwen2.5 maintient tout le contenu sur site. Qwen2.5 est 30-40% plus efficace en tokens pour les documents en chinois.

Erreurs courantes avec les LLMs locaux à long contexte

  • Supposer que le contexte 128K fonctionne aussi bien que 4K : L'effet "perdu au milieu" signifie que les informations présentées 30K-80K tokens auparavant sont moins fiablement récupérées. Découper les longs documents en sections de 16K-32K.
  • Ne pas augmenter la taille de contexte par défaut d'Ollama : Ollama utilise par défaut 2048 tokens, quelle que soit la fenêtre maximale du modèle. Toujours définir num_ctx via PARAMETER num_ctx 32768 dans un Modelfile ou --ctx au moment de l'exécution.
  • Exécuter un long contexte avec RAM insuffisante : Un modèle 7B avec contexte 128K sur 8 Go total cause une utilisation intensive du swap. Poids du modèle (~4,5 Go) plus cache KV 128K (~8+ Go) dépassent 8 Go.
  • Oublier que le TTFT évolue avec la longueur du contexte : À 32K de contexte, le temps jusqu'au premier token peut être de 5-15 secondes sur hardware grand public.
  • Utiliser le RAG quand le long contexte est le bon outil (et vice versa) : Le RAG est meilleur pour la recherche sur de nombreux documents. Le long contexte est meilleur pour raisonner sur un document complet et cohérent.

FAQ

Puis-je résumer un livre entier avec un LLM local ?

Un livre typique de 300 pages représente 90 000-120 000 mots -- environ 120K-160K tokens. Cela dépasse le contexte fiable de la plupart des modèles 7B. Pour les 7B, diviser le livre en chapitres de 20K mots, résumer chacun, puis résumer les résumés.

Combien de pages tiennent dans 32K tokens ?

Environ 50-70 pages de texte standard (250 mots par page). Un contexte 32K tient un court roman, un article de recherche complet ou un document de spécification technique.

Augmenter la longueur de contexte ralentit-il l'inférence ?

Oui -- traiter un contexte 32K prend environ 3-4× plus longtemps qu'un 4K sur le même hardware. La vitesse de génération n'est pas significativement affectée, mais le temps jusqu'au premier token évolue avec la longueur d'entrée.

Quel LLM local gère mieux le RAG que le long contexte ?

Pour la recherche documentaire, le RAG est souvent plus efficace. Il récupère 3-5 blocs pertinents (4K-8K tokens au total) et évite le problème "perdu au milieu".

Qu'est-ce que le cache KV et pourquoi grandit-il avec le contexte ?

Le cache KV stocke les états d'attention pour chaque token traité. Un contexte 32K nécessite 8× plus de mémoire qu'un 4K. Les poids du modèle restent identiques -- seul le cache KV croît.

Les modèles locaux peuvent-ils gérer 1M tokens comme Gemini 3.1 Pro ?

Non -- au 1er avril 2026, aucun modèle local ne supporte 1M tokens. La fenêtre 1M tokens de Gemini 3.1 Pro nécessite l'infrastructure TPU de Google. Localement, 128K est le maximum sur hardware grand public.

Qu'est-ce que le problème "perdu au milieu" et comment l'éviter ?

Les LLMs récupèrent fiablement les informations au début et à la fin du contexte, mais ratent les détails du milieu. Pour un contexte 128K, les contenus à 40K-80K tokens sont les plus susceptibles d'être ignorés. Garder les informations critiques au début du prompt, utiliser le RAG ou traiter en sections chevauchantes 16K-32K.

Comment vérifier la longueur de contexte utilisée par Ollama ?

Exécuter `ollama show <modèle>` -- la sortie liste num_ctx. Si c'est 2048, Ollama utilise le défaut. Pour modifier durablement : créer un Modelfile avec PARAMETER num_ctx 32768 et exécuter `ollama create <nom> -f Modelfile`. Vérifier avec `ollama ps`.

Le long contexte ou le RAG est-il meilleur pour les questions-réponses ?

Le RAG est généralement plus efficace et RAM-efficient pour les Q&R documentaires. Il récupère 3-5 blocs pertinents (4K-8K tokens). Le long contexte est meilleur quand le modèle doit comprendre la structure complète du document.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

128K Contexte : Qwen vs Llama vs DeepSeek 2026