PromptQuorumPromptQuorum

Quels modèles Ollama supportent le contexte 128K ?

Réponse rapide

Llama 3.1 8B supporte le contexte 128K sur Ollama. Qwen 2.5 14B atteint 1M de tokens. Attention : le contexte complet augmente fortement la VRAM — une fenêtre 128K nécessite 3–4× plus de VRAM que la fenêtre par défaut de 4K.

  • Llama 3.1 8B : contexte 128K, ~16 GB VRAM en contexte complet
  • Qwen 2.5 14B : jusqu'à 1M de tokens, 24+ GB VRAM en contexte complet
  • Définissez --num-ctx 4096 pour l'usage normal afin d'économiser la VRAM

Mis à jour : 2026-05

Ollama

Points clés

  • La plupart des modèles Ollama 7B annoncent 128K de contexte mais dégradent en qualité au-delà de 32K tokens
  • Llama 3.1 8B et Qwen 2.5 14B sont les deux modèles qui délivrent une qualité fiable à 128K complet
  • Une fenêtre de contexte 128K peut presque tripler l'utilisation VRAM — un modèle 7B Q4 a besoin de ~15 GB à 128K contre ~5,5 GB par défaut
  • Définissez <code>--num-ctx 4096</code> pour les tâches quotidiennes ; n'étendez le contexte que lorsque nécessaire

Les modèles qui atteignent vraiment 128K

En mai 2026, la plupart des modèles Ollama annoncent 128K de contexte, mais peu délivrent une qualité de sortie utile à cette longueur. Le problème est l'effet "perdu au milieu" : les modèles entraînés sur des longueurs de documents typiques peinent à traiter des informations placées au cœur d'un long contexte.

Deux modèles maintiennent fiablement la qualité à 128K complet sur Ollama : Llama 3.1 8B (entraîné nativement à 128K) et Qwen 2.5 14B (jusqu'à 1M de tokens, bien que les contraintes VRAM rendent 128K la limite pratique pour le grand public). Pour la plupart des autres modèles 7B, la qualité de sortie se dégrade notablement au-delà de 32K tokens.

Si votre tâche implique des documents de plus de 20 000 mots, commencez par Llama 3.1 8B. Si vous avez besoin de la meilleure qualité de contexte long et disposez de 12+ GB de VRAM, Qwen 2.5 14B est le meilleur choix.

Le coût VRAM du contexte long

L'extension de la fenêtre de contexte augmente significativement l'utilisation VRAM. Le KV-cache, qui stocke l'état d'attention pour tous les tokens en contexte, peut utiliser autant de VRAM que les poids du modèle lui-même à 128K de contexte.

Le tableau ci-dessous montre comment le VRAM du KV-cache évolue pour un modèle 7B en Q4_K_M. Ces chiffres supposent des modèles utilisant le grouped query attention (GQA) — les modèles sans GQA utilisent significativement plus de KV-cache.

Pour économiser la VRAM sur les tâches quotidiennes, définissez --num-ctx 4096 lors du lancement d'Ollama. N'étendez à 32K ou 128K que lorsque votre tâche spécifique le requiert. Pour le guide complet sur les LLMs locaux à contexte long, consultez le guide des LLMs locaux à contexte long.

Longueur de contexteKV-Cache (7B)VRAM total (7B Q4)
4K (défaut)~0,5 GB~5,5 GB
16K~1,5 GB~6,5 GB
32K~3 GB~8 GB
128K~10 GB~15 GB

Réponses rapides sur les modèles à contexte long

Comment activer le contexte 128K dans Ollama ?
Ajoutez --num-ctx 131072 à votre commande run : ollama run llama3.1:8b --num-ctx 131072. Sans ce paramètre, Ollama utilise par défaut 2048–4096 tokens quelle que soit la capacité maximale du modèle.
Pourquoi le contexte long utilise-t-il autant de VRAM ?
Le KV-cache stocke l'état d'attention pour chaque token en contexte. À 128K tokens, ce cache peut être aussi volumineux que les poids du modèle. Un modèle 7B en Q4 a besoin de ~5,5 GB pour les poids mais de ~10 GB de KV-cache à 128K de contexte.
Le contexte 128K est-il utile pour le développement ?
Oui, pour travailler sur de grandes bases de code. Intégrer un dépôt entier ou plusieurs fichiers dans le contexte améliore considérablement le refactoring et les tâches de raisonnement inter-fichiers. Pour le développement à 128K, Qwen 2.5 14B est le modèle recommandé.
Quel modèle est le meilleur pour l'analyse de longs documents ?
Qwen 2.5 14B en Q4_K_M est le premier choix pour les longs documents sur Ollama — il maintient mieux la qualité à pleine longueur de contexte que les alternatives 7B. Voir les modèles vision Ollama si vous avez également besoin de compréhension d'images avec de longs documents.