Schnelle Antwort
Llama 3.1 8B unterstützt 128K Kontext auf Ollama. Qwen 2.5 14B erreicht 1M Tokens. Hinweis: Voller Kontext erhöht den VRAM-Bedarf erheblich — ein 128K-Fenster benötigt 3–4× mehr VRAM als das Standard-4K-Fenster.
Aktualisiert: 2026-05
Wichtigste Punkte
Stand Mai 2026 werben die meisten Ollama-Modelle mit 128K Kontext, aber nur wenige liefern bei dieser Länge nützliche Ausgabequalität. Das Problem ist der „Lost in the Middle"-Effekt: Modelle, die auf typischen Dokumentlängen trainiert wurden, haben Schwierigkeiten, Informationen tief in einem langen Kontext zu finden.
Zwei Modelle halten bei vollem 128K Kontext auf Ollama zuverlässig die Qualität: Llama 3.1 8B (nativ auf 128K trainiert) und Qwen 2.5 14B (bis zu 1M Tokens, wobei VRAM-Beschränkungen 128K zur praktischen Consumer-Grenze machen). Bei den meisten anderen 7B-Modellen nimmt die Ausgabequalität oberhalb von 32K Tokens merklich ab.
Wenn Ihre Aufgabe Dokumente mit mehr als 20.000 Wörtern umfasst, beginnen Sie mit Llama 3.1 8B. Wenn Sie die stärkste Long-Context-Qualität benötigen und 12+ GB VRAM haben, ist Qwen 2.5 14B die bessere Wahl.
Die Erweiterung des Kontextfensters erhöht den VRAM-Verbrauch erheblich. Der KV-Cache, der den Attention-Zustand für alle Tokens im Kontext speichert, kann bei 128K Kontext so viel VRAM belegen wie die Modellgewichte selbst.
Die folgende Tabelle zeigt, wie der KV-Cache-VRAM für ein 7B-Modell bei Q4_K_M skaliert. Diese Werte gelten für Modelle mit Grouped Query Attention (GQA) — Modelle ohne GQA verwenden deutlich mehr KV-Cache.
Um VRAM bei alltäglichen Aufgaben zu sparen, setzen Sie --num-ctx 4096 beim Starten von Ollama. Erweitern Sie auf 32K oder 128K nur, wenn Ihre spezifische Aufgabe es erfordert. Den vollständigen Leitfaden zu Long-Context-LLMs einschließlich Modellauswahl und RAM-Splitting finden Sie im Leitfaden für Long-Context-LLMs.
| Kontextlänge | KV-Cache (7B) | Gesamt-VRAM (7B Q4) |
|---|---|---|
| 4K (Standard) | ~0,5 GB | ~5,5 GB |
| 16K | ~1,5 GB | ~6,5 GB |
| 32K | ~3 GB | ~8 GB |
| 128K | ~10 GB | ~15 GB |
--num-ctx 131072 zu Ihrem Run-Befehl hinzu: ollama run llama3.1:8b --num-ctx 131072. Ohne dieses Flag verwendet Ollama standardmäßig 2048–4096 Tokens, unabhängig von der maximalen Fähigkeit des Modells.