PromptQuorumPromptQuorum

Welche Ollama-Modelle unterstützen 128K Kontext?

Schnelle Antwort

Llama 3.1 8B unterstützt 128K Kontext auf Ollama. Qwen 2.5 14B erreicht 1M Tokens. Hinweis: Voller Kontext erhöht den VRAM-Bedarf erheblich — ein 128K-Fenster benötigt 3–4× mehr VRAM als das Standard-4K-Fenster.

  • Llama 3.1 8B: 128K Kontext, ~16 GB VRAM bei vollem Kontext
  • Qwen 2.5 14B: bis zu 1M Tokens, 24+ GB VRAM bei vollem Kontext
  • Setzen Sie --num-ctx 4096 für die normale Nutzung, um VRAM zu sparen

Aktualisiert: 2026-05

Ollama

Wichtigste Punkte

  • Die meisten 7B-Ollama-Modelle werben mit 128K Kontext, liefern aber oberhalb von 32K Tokens sinkende Qualität
  • Llama 3.1 8B und Qwen 2.5 14B sind die zwei Modelle, die bei vollem 128K zuverlässige Qualität bieten
  • Ein 128K-Kontextfenster kann den VRAM-Verbrauch fast verdreifachen — ein 7B Q4-Modell benötigt ~15 GB bei 128K statt ~5,5 GB beim Standard
  • Setzen Sie <code>--num-ctx 4096</code> für alltägliche Aufgaben; erweitern Sie den Kontext nur, wenn Sie ihn benötigen

Welche Modelle wirklich 128K erreichen

Stand Mai 2026 werben die meisten Ollama-Modelle mit 128K Kontext, aber nur wenige liefern bei dieser Länge nützliche Ausgabequalität. Das Problem ist der „Lost in the Middle"-Effekt: Modelle, die auf typischen Dokumentlängen trainiert wurden, haben Schwierigkeiten, Informationen tief in einem langen Kontext zu finden.

Zwei Modelle halten bei vollem 128K Kontext auf Ollama zuverlässig die Qualität: Llama 3.1 8B (nativ auf 128K trainiert) und Qwen 2.5 14B (bis zu 1M Tokens, wobei VRAM-Beschränkungen 128K zur praktischen Consumer-Grenze machen). Bei den meisten anderen 7B-Modellen nimmt die Ausgabequalität oberhalb von 32K Tokens merklich ab.

Wenn Ihre Aufgabe Dokumente mit mehr als 20.000 Wörtern umfasst, beginnen Sie mit Llama 3.1 8B. Wenn Sie die stärkste Long-Context-Qualität benötigen und 12+ GB VRAM haben, ist Qwen 2.5 14B die bessere Wahl.

Die VRAM-Kosten langer Kontextfenster

Die Erweiterung des Kontextfensters erhöht den VRAM-Verbrauch erheblich. Der KV-Cache, der den Attention-Zustand für alle Tokens im Kontext speichert, kann bei 128K Kontext so viel VRAM belegen wie die Modellgewichte selbst.

Die folgende Tabelle zeigt, wie der KV-Cache-VRAM für ein 7B-Modell bei Q4_K_M skaliert. Diese Werte gelten für Modelle mit Grouped Query Attention (GQA) — Modelle ohne GQA verwenden deutlich mehr KV-Cache.

Um VRAM bei alltäglichen Aufgaben zu sparen, setzen Sie --num-ctx 4096 beim Starten von Ollama. Erweitern Sie auf 32K oder 128K nur, wenn Ihre spezifische Aufgabe es erfordert. Den vollständigen Leitfaden zu Long-Context-LLMs einschließlich Modellauswahl und RAM-Splitting finden Sie im Leitfaden für Long-Context-LLMs.

KontextlängeKV-Cache (7B)Gesamt-VRAM (7B Q4)
4K (Standard)~0,5 GB~5,5 GB
16K~1,5 GB~6,5 GB
32K~3 GB~8 GB
128K~10 GB~15 GB

Schnelle Antworten zu Long-Context-Modellen

Wie aktiviere ich 128K Kontext in Ollama?
Fügen Sie --num-ctx 131072 zu Ihrem Run-Befehl hinzu: ollama run llama3.1:8b --num-ctx 131072. Ohne dieses Flag verwendet Ollama standardmäßig 2048–4096 Tokens, unabhängig von der maximalen Fähigkeit des Modells.
Warum verbraucht langer Kontext so viel VRAM?
Der KV-Cache speichert den Attention-Zustand für jeden Token im Kontext. Bei 128K Tokens kann dieser Cache so groß wie die Modellgewichte selbst sein. Ein 7B-Modell bei Q4 benötigt ~5,5 GB für die Gewichte, aber ~10 GB KV-Cache bei 128K Kontext.
Ist 128K Kontext nützlich für das Programmieren?
Ja, beim Arbeiten über große Codebasen. Einen gesamten Repository oder mehrere Dateien in den Kontext zu laden, verbessert Refactoring- und dateiübergreifende Reasoning-Aufgaben erheblich. Für das Programmieren mit 128K ist Qwen 2.5 14B das empfohlene Modell.
Welches Modell eignet sich am besten für die Analyse langer Dokumente?
Qwen 2.5 14B bei Q4_K_M ist die beste Wahl für lange Dokumente auf Ollama — es hält die Qualität bei voller Kontextlänge besser als 7B-Alternativen. Siehe Ollama Vision-Modelle, wenn Sie neben langen Dokumenten auch Bildverständnis benötigen.