Réponse rapide
Llama 3.1 8B supporte le contexte 128K sur Ollama. Qwen 2.5 14B atteint 1M de tokens. Attention : le contexte complet augmente fortement la VRAM — une fenêtre 128K nécessite 3–4× plus de VRAM que la fenêtre par défaut de 4K.
Mis à jour : 2026-05
Points clés
En mai 2026, la plupart des modèles Ollama annoncent 128K de contexte, mais peu délivrent une qualité de sortie utile à cette longueur. Le problème est l'effet "perdu au milieu" : les modèles entraînés sur des longueurs de documents typiques peinent à traiter des informations placées au cœur d'un long contexte.
Deux modèles maintiennent fiablement la qualité à 128K complet sur Ollama : Llama 3.1 8B (entraîné nativement à 128K) et Qwen 2.5 14B (jusqu'à 1M de tokens, bien que les contraintes VRAM rendent 128K la limite pratique pour le grand public). Pour la plupart des autres modèles 7B, la qualité de sortie se dégrade notablement au-delà de 32K tokens.
Si votre tâche implique des documents de plus de 20 000 mots, commencez par Llama 3.1 8B. Si vous avez besoin de la meilleure qualité de contexte long et disposez de 12+ GB de VRAM, Qwen 2.5 14B est le meilleur choix.
L'extension de la fenêtre de contexte augmente significativement l'utilisation VRAM. Le KV-cache, qui stocke l'état d'attention pour tous les tokens en contexte, peut utiliser autant de VRAM que les poids du modèle lui-même à 128K de contexte.
Le tableau ci-dessous montre comment le VRAM du KV-cache évolue pour un modèle 7B en Q4_K_M. Ces chiffres supposent des modèles utilisant le grouped query attention (GQA) — les modèles sans GQA utilisent significativement plus de KV-cache.
Pour économiser la VRAM sur les tâches quotidiennes, définissez --num-ctx 4096 lors du lancement d'Ollama. N'étendez à 32K ou 128K que lorsque votre tâche spécifique le requiert. Pour le guide complet sur les LLMs locaux à contexte long, consultez le guide des LLMs locaux à contexte long.
| Longueur de contexte | KV-Cache (7B) | VRAM total (7B Q4) |
|---|---|---|
| 4K (défaut) | ~0,5 GB | ~5,5 GB |
| 16K | ~1,5 GB | ~6,5 GB |
| 32K | ~3 GB | ~8 GB |
| 128K | ~10 GB | ~15 GB |
--num-ctx 131072 à votre commande run : ollama run llama3.1:8b --num-ctx 131072. Sans ce paramètre, Ollama utilise par défaut 2048–4096 tokens quelle que soit la capacité maximale du modèle.