LLMs haben kein Langzeitgedächtnis — sie "sehen" nur ein Schiebefenster mit aktuellen Tokens. Erfahren Sie, warum KI den Kontext vergisst, wie Sie Prompts strukturieren, um innerhalb von Grenzen zu bleiben, und wie Sie Kontextfenster über Cloud- und lokale Modelle hinweg verwalten.

Kontextfenster erklärt: Warum KI vergisst

LLMs haben kein Langzeitgedächtnis — sie "sehen" nur ein Schiebefenster mit aktuellen Tokens, und alles außerhalb dieses Fensters wird vergessen oder komprimiert. Dieser Artikel erklärt, was das für Ihre Prompts bedeutet und wie Sie innerhalb (und außerhalb) dieser Grenzen arbeiten können.

Was ist ein Kontextfenster?

Ein Kontextfenster ist die maximale Menge an Text (gemessen in Tokens), die ein LLM berücksichtigen kann, wenn es seine nächste Ausgabe generiert.

Stellen Sie sich das als den "sichtbaren Text" des Modells zu jedem gegebenen Moment vor. Wenn Sie eine Nachricht an GPT-4o mit einem 128k Token-Kontextfenster senden, kann das Modell die letzten 128.000 Tokens des Gesprächs "sehen" — ungefähr 96.000 Wörter. Alles davor ist für das Modell unsichtbar und beeinflusst seine Antwort nicht.

Tokens vs. Wörter: Ein Token ist kein Wort. Im Durchschnitt entspricht ein Token ≈ 4 Zeichen oder etwa 0,75 Wörter. Ein 4.000-Token-Kontextfenster ≈ 3.000 Wörter einfachen englischen Text. Für dichten Code oder Sprachen wie Japanisch ist das Verhältnis anders — Japanischer Text benötigt aufgrund der Zeichenkodierung ungefähr 2 Tokens pro Wort.

Kontextfenstergröße variiert stark zwischen Modellen:

Modell	Kontextfenster
GPT-4o mini	4k Tokens (≈ 3.000 Wörter)
GPT-4o	128k Tokens (≈ 96.000 Wörter)
Claude Opus 4.7	200k Tokens (≈ 150.000 Wörter)
Gemini 3.1 Pro	2.000.000 Tokens (≈ 1.500.000 Wörter — größter verfügbarer Kontext 2026)
Lokale Modelle (Ollama, LM Studio)	Konfigurierbar 4k bis 128k+, begrenzt durch verfügbaren VRAM

Das Prinzip ist bei allen Modellen identisch: Alles außerhalb des Fensters ist unsichtbar.

Warum "vergisst" KI

Wenn die Gesamtzahl der Tokens in einer Konversation (System-Prompt + Chat-Verlauf + Benutzereingabe + Tools + erwartete Ausgabe) das Kontextfenster überschreitet, werden ältere Teile gekürzt, zusammengefasst oder ganz gelöscht.

Das ist nicht Gedächtnisverlust wie menschliche Vergesstlichkeit. Das Modell "denkt nicht und vergisst dann." Es sieht den gekürzten Text buchstäblich nicht — er existiert nicht mehr im Input-Raum des Modells.

Häufige Symptome beim Erreichen des Kontextlimits:

Die KI ignoriert oder widerspricht einer Anweisung, die Sie vor 30 Nachrichten gegeben haben
In einer langen kreativen Geschichte vergisst das Modell Charakternamen, Details oder Einschränkungen, die Sie früher festgelegt haben
In einem Forschungs-Chat über viele Turns hinweg werden Fakten durcheinander gebracht oder das Modell erfindet Informationen neu
Die KI ändert plötzlich den Ton oder verletzt Ihre ursprünglichen Einschränkungen ohne Erklärung

Kontextfenster funktionieren wie ein Schiebefenster: Neue Tokens drücken alte hinaus — sobald das Fenster voll ist, kann das Modell frühere Inhalte nicht mehr sehen.

Was passiert tatsächlich

Die meisten Chat-Interfaces verwenden eine dieser Strategien:

1
Älteste Nachrichten löschen — Die neuesten N Nachrichten passen ins Fenster; ältere werden ganz verworfen
2
Früheren Chat zusammenfassen — Das System komprimiert frühe Nachrichten in eine kurze Zusammenfassung ("Früher haben Sie X, Y, Z… besprochen") um Kontext zu bewahren
3
System-/Entwickler-Prompts fixieren — Die System-Nachricht bleibt fest, während Benutzernachrichten rotieren

All diese Methoden bewahren den "Kern", verlieren aber spezifische Details. Wenn das Modell die ursprüngliche Anweisung nicht mehr sieht, kann es sie nicht befolgen.

Kontextfenster und Halluzinationen

Kontextüberlastung verstärkt Halluzinationen, weil das Modell Lücken mit plausiblen Vermutungen füllt, wenn die Originalinformation nicht mehr sichtbar ist.

So sieht das Muster aus: Sie bitten die KI, etwas zu referenzieren, das Sie vor 50 Nachrichten erwähnt haben. Diese Nachricht ist aber aus dem Kontextfenster rotiert. Das Modell hat keinen Zugang zur tatsächlichen Tatsache, also generiert es eine plausibel klingende Antwort basierend auf dem, was es aus dem aktuellen Kontext ableitet. Ergebnis: Erfindung.

Daher produzieren hoch-kontextuelle, lange Chats oft mehr Halluzinationen als fokussierte, kurze Austausche. Das Modell verliert nicht seine Argumentationsfähigkeit — es arbeitet mit unvollständiger Information.

Die Beziehung ist direkt: Weniger Kontext → fehlende Verankerung → erhöhtes Halluzinationsrisiko.

Dieser Effekt verstärkt sich mit höheren Temperature und Top-P Einstellungen, die bereits Zufälligkeit erhöhen. Siehe Temperature and Top-P: Control AI Creativity um zu verstehen, wie Parameteroptimierung mit Halluzination interagiert.

Wie Prompt-Design hilft, im Fenster zu bleiben

Strategisches Strukturieren Ihrer Prompts ermöglicht es, mehr innerhalb eines festen Kontext-Budgets zu erreichen.

Prompt-Trimming spart 30–50% Tokens: Entfernen redundanter Kontexte aus früheren Turns hält das Fenster fokussiert auf das, was das Modell wissen muss.

Kritische Anweisungen vorne platzieren. Platzieren Sie Ihre wichtigsten Einschränkungen, Regeln und Definitionen im System-Prompt oder in der allerersten Benutzernachricht. Diese werden weniger aus dem Kontext fallen als Anweisungen, die 20 Turns später vergraben sind.

Wiederholungen vermeiden. Wenn Sie etwas bereits einmal erklärt haben, kopieren Sie es nicht erneut ein. Referenzieren Sie es stattdessen: "Wie wir in der obigen Zusammenfassung besprochen haben…" Das spart Tokens.

Zusammenfassung explizit machen. Bitten Sie das Modell, die bisherigen wichtigsten Entscheidungen, Einschränkungen oder Fakten zusammenzufassen. Bauen Sie dann die nächste Antwort auf dieser Zusammenfassung auf, anstatt sich auf verstreute frühere Kontexte zu verlassen.

Turns fokussiert halten. Ein langer, mehrteiliger Monolog nutzt den Kontext ineffizient. Teilen Sie ihn in separate, eng begrenzte Austausche auf.

Kontext-Fenster-Größen (2026)

Arbeiten mit langen Dokumenten

Das Einfügen ganzer Bücher oder hundertseiten-langer PDFs in ein einzelnes Kontextfenster ist ineffizient, auch für Gemini 3.1 Pros 2M Token-Fenster, weil das Modell nicht effektiv über mehrere unterschiedliche Abschnitte hinweg fokussieren kann.

Ein 1.000-Seiten-Buch ≈ 250.000 Tokens. Technisch kann Gemini 3.1 Pro es problemlos aufnehmen (2M Token-Limit). Praktisch verschlechtert sich die Argumentationsfähigkeit des Modells, wenn es aufgefordert wird, Fragen über stark unterschiedliche Abschnitte zu beantworten — wie wenn man eine Person auffordert, einen ganzen Roman in einem Sitzen zu lesen und dann spezifische Details von Seite 50, 200 und 400 zu erinnern. Die Erinnerung wird vage.

Bessere Ansätze für lange Dokumente:

1
Abschnitte sequenziell verarbeiten. Extrahieren und analysieren Sie ein Kapitel oder einen Abschnitt auf einmal. Stellen Sie fokussierte Fragen pro Abschnitt: "Was sind die Hauptschlussfolgerungen in Abschnitt 3?" Dann gehen Sie zum nächsten Abschnitt über.
2
Hierarchische Zusammenfassung. Extrahieren Sie Schlüsselpunkte aus Seiten 1–10, dann Seiten 11–20, kombinieren Sie diese Zusammenfassungen dann in eine Kapitel-Zusammenfassung. Kombinieren Sie dann Kapitel in eine Dokument-Zusammenfassung. Dies reduziert das Dokument auf seine wesentlichen Fakten, bewahrt aber Beziehungen.
3
Strukturierte Extraktion. Konvertieren Sie das Dokument in Tabellen, JSON oder Bullet-Listen, *bevor* Sie Fragen auf höherer Ebene stellen. Das komprimiert die Information: Statt 50 Seiten Produktspezifikationen einzufügen, extrahieren Sie die Spezifikationen in eine strukturierte Tabelle, stellen Sie dann Fragen zur Tabelle.
4
Verwenden Sie RAG (Retrieval-Augmented Generation). Für wirklich große Dokumentenmengen (100+ Seiten) funktionieren abrufbasierte Systeme besser. Siehe RAG Explained: How to Ground AI Answers in Real Data wie Sie relevante Abschnitte abrufen statt alles auf einmal zu laden.

Wie PromptQuorum Ihnen hilft, Kontext zu verwalten

Die Arbeit nahe an Kontextlimits ist anspruchsvoll, weil jedes Modell unterschiedliche Limits, Kürzungsverhalten, Preisgestaltung und (für lokale LLMs) VRAM-Anforderungen hat. PromptQuorum macht diese Grenzen transparent: Sie sehen vor dem Senden, welches Modell wie viel Kontext verbraucht und wann Überfluss droht.

Kontextfenster-Anpassung für lokale LLMs

Wenn Sie ein Modell in LM Studio oder Ollama ausführen, können Sie die Kontextfenstergröße konfigurieren. Standardmäßig stellen Werkzeuge es auf das Maximum des Modells (z.B. 32k für ein 7B-Modell). Aber das ist selten das, was Sie brauchen.

PromptQuorum integriert sich mit LM Studio und ermöglicht es Ihnen, das Kontextfenster pro Aufgabe anzupassen: wählen Sie 4k für leichte, schnelle Q&A; wählen Sie 32k für tiefe Dokumentanalyse; wählen Sie 64k für lange Gespräche. Das macht den Trade-off explizit statt in Config-Dateien versteckt.

Automatische Kontextüberfluss-Checks

PromptQuorum prüft *bevor* Sie senden: Wenn Ihr System-Prompt + aktueller Chat-Verlauf + Ihre neue Eingabe + erwartete Ausgabelänge gegeben sind, passt das in das konfigurierte Kontextfenster für jedes Modell?

Wenn Überfluss wahrscheinlich ist, warnt PromptQuorum Sie oder fordert Sie auf, den Chat zu trimmen/zusammenzufassen, bevor Sie senden. Keine Überraschung durch Kürzung mehr. Keine Rätsel darüber, warum die KI "vergessen hat."

Kontextfenster ↔ RAM Trade-off

Für lokale Modelle steigt der VRAM-Bedarf mit der Kontextfenstergröße erheblich. Ein 7B-Modell in Q4_K_M-Quantisierung benötigt bei 4k Kontext ~5 GB VRAM, bei 32k Kontext ~8–10 GB und bei 128k Kontext ~12–14 GB. Läuft der VRAM voll, stürzt der Prozess ab oder fällt auf CPU-Inferenz zurück (was 10–100× langsamer ist).

PromptQuorum zeigt Ihnen diese Beziehung: "Diese Kontextfenstergröße wird ~12–14 GB VRAM auf Ihrer Hardware verwenden. Sie haben 8 GB verfügbar." Sie können dann das Kontextfenster für Ihre Aufgabe und Hardware richtig dimensionieren, statt Abstürze während der Inferenz zu entdecken.

Für die Modelle mit den längsten verfügbaren Kontextfenstern für lokale Bereitstellung — einschließlich Hardware-Anforderungen — siehe Long-Context lokale LLMs.

Multi-Modell-Bewusstsein

Wenn Sie einen Prompt an GPT-4o (128k Fenster), Claude (200k Fenster) und ein lokales 7B-Modell (Ihr gewähltes 32k Fenster) versenden, behält PromptQuorum Ihren Prompt automatisch innerhalb aller drei Grenzen. Ein Prompt, mehrere Modelle, kein manuelles Umschreiben.

Praktische Rezepte für Kontextverwaltung

Rezept 1: Langer Chat über ein Projekt — Ein Multi-Turn-Gespräch über ein einzelnes Projekt führen, ohne frühere Entscheidungen zu verlieren.

1
Betten Sie in Ihren System-Prompt die Schlüsselbeschränkungen des Projekts (Umfang, Zielgruppe, Ton, technische Limits) einmal ein. Wiederholen Sie sie nicht.
2
Nach jedem 10–15 Austausch bitten Sie das Modell, den aktuellen Status zusammenzufassen: "Was sind die 5 wichtigsten Entscheidungen, die wir bisher getroffen haben?"
3
Verwenden Sie diese Zusammenfassung als Kontext Ihres nächsten Turns, statt sich auf verstreute frühere Nachrichten zu verlassen.
4
In PromptQuorum stellen Sie ein Kontextfenster von 32k–64k ein und aktivieren Überfluss-Warnungen, damit Sie wissen, wann Sie zusammenfassen sollten.

Rezept 2: Analyse eines langen Berichts — Erkenntnisse aus einem 50–100-Seiten-Dokument extrahieren.

1
Teilen Sie das Dokument in 3–5 Abschnitte (Kapitel, Teile).
2
Für jeden Abschnitt schreiben Sie einen fokussierten Prompt: "Fassen Sie die Schlüsselergebnisse dieses Abschnitts in 5 Bullet Points zusammen."
3
Sammeln Sie diese 5 Zusammenfassungen von jedem Abschnitt.
4
In einem letzten Turn fragen Sie: "Angesichts dieser Abschnittszusammenfassungen, was ist die Gesamtschlussfolgerung?"
5
Sie sind gut innerhalb der Kontextlimits geblieben und haben das "im Buch verloren" Problem vermieden.

Rezept 3: Prompting am Rande des Kontextfensters — Das fast vollständige Kontextfenster ohne Überfluss verwenden.

1
Berechnen Sie Ihr Budget: Kontextfenstergröße − System-Prompt-Tokens − erwartete Ausgabe-Tokens = verfügbare Tokens für Ihre Eingabe + Verlauf.
2
Beispiel: 128k Fenster, 200-Token System-Prompt, 1k Ausgabe-Puffer = 126,8k verfügbare Tokens.
3
Bevor Sie senden, überprüfen Sie in PromptQuorum: "Wie viele Tokens verbraucht diese Eingabe?"
4
Wenn nah am Limit, trimmen Sie den ältesten Turn oder fassen Sie ihn zusammen, bevor Sie fortfahren.
5
Dies hält Sie absichtlich nah am Limit betrieblich, nicht zufällig es zu erreichen.

Rezept 4: Lokales LLM mit begrenztem VRAM — Ein lokales Modell effektiv ohne Abstürze ausführen.

1
Beginnen Sie mit einem konservativen Kontextfenster (8k–16k) für Ihres Modells RAM.
2
In PromptQuroums Einstellungen notieren Sie die RAM-Anforderung bei dieser Fenstergröße.
3
Führen Sie Ihre Aufgabe aus. Wenn Sie Überfluss haben, fassen Sie den Chat zusammen und starten Sie von der Zusammenfassung neu.
4
Wenn Sie sich dem Limit nie nähern, erhöhen Sie langsam das Kontextfenster und testen Sie erneut.
5
Finden Sie das "richtig dimensionierte" Kontextfenster Ihres Modells für Ihre Hardware und Aufgaben.

Häufige Fehler bei Kontextfenstern

"Das Modell merkt sich alle meine bisherigen Chats." Nein. Jedes neue Gespräch startet mit null Kontext aus früheren Chats. Sogar innerhalb eines Chats, sobald Ihr Austausch das Kontextfenster überschreitet, ist es weg.
"Ich werde einfach den gleichen langen Kontext bei jedem Turn einfügen." Das verschwendet Tokens und hilft nicht — das Modell kann trotzdem nicht über 300 Seiten effektiv nachdenken. Fassen Sie stattdessen zusammen und referenzieren Sie die Zusammenfassung.
"Ich werde fünf verschiedene Projekte in ein lange Gespräch mischen." Jedes Projekt konkurriert um Tokens. Wenn Kontext sich füllt, werden Details gekürzt. Verwenden Sie separate Chats pro Projekt.
"Die KI ist schlecht beim Nachdenken — muss Temperature oder Top-P sein." Vielleicht. Aber zuerst kontrollieren Sie das Kontextfenster. Wenn das Modell die ursprüngliche Einschränkung nicht mehr sieht, ist das kein Parameter-Problem; es ist fehlende Information.
"Ich werde das Kontextfenster auf meinem lokalen LLM maximieren." Dann läuft Ihnen der RAM aus, der Prozess stürzt ab und die Inferenz fällt auf langsamen CPU-Modus zurück. Stellen Sie stattdessen Kontext Ihrer Hardware ein.
"Die App hat mich vor Überfluss gewarnt, aber ich habe es trotzdem gesendet." Vertrauen Sie der Warnung. Überfluss führt zu stiller Kürzung, versteckten Halluzinationen und verschwendeten Tokens. Fassen Sie erst zusammen.

FAQ

Merkt sich das Modell meine bisherigen Chats?

Nein. Jede neue Chatsession startet mit null Verlauf. Das Modell sieht nur Tokens innerhalb des aktuellen Kontextfensters. Wenn Sie auf einen bisherigen Chat referenzieren möchten, müssen Sie relevante Teile in das aktuelle Gespräch kopieren.

Warum hat die KI eine Anweisung ignoriert, die ich vor 20 Nachrichten gegeben habe?

Diese Anweisung ist wahrscheinlich aus dem Kontextfenster gefallen. Das Modell sieht sie nicht mehr, also kann es sie nicht befolgen. Lösung: Wiederholen Sie kritische Anweisungen in Ihrem System-Prompt oder bitten Sie das Modell, die Anweisung mitten im Gespräch zu rekapitulieren und erneut einzubetten.

Ist ein größeres Kontextfenster immer besser?

Nein. Ein größeres Fenster ermöglicht es, mehr Inhalte einzufügen, aber es erhöht auch die Kosten (mehr Tokens zum Verarbeiten) und für lokale Modelle RAM-Nutzung. Wählen Sie ein Kontextfenster, das zu Ihrer Aufgabe passt: 4k für einfache Q&A, 32k für lange Gespräche, 128k+ für Dokumentanalyse. Größer ist nicht "besser" — *angemessen* ist besser.

Wie weiß ich, wann ich das Kontextlimit erreicht habe?

Die Antworten des Modells ändern den Ton, widersprechen früheren Anweisungen oder verlieren den Überblick über Details, die Sie früher festgelegt haben. Verwenden Sie PromptQuroums Kontextüberfluss-Check vor dem Senden — er warnt Sie, wenn Sie sich dem Limit nähern.

Wie beeinflusst die Kontextfenstergröße die RAM-Nutzung für lokale Modelle?

Ein 7B-Modell (Q4_K_M-Quantisierung) benötigt bei 4k Kontext ~5 GB VRAM, bei 32k Kontext ~8–10 GB und bei 128k Kontext ~12–14 GB. Die Zunahme ist nicht streng linear. Überprüfen Sie PromptQuorums VRAM-Rechner, um Ihre Hardware-Decke zu kennen.

Können Werkzeuge wie PromptQuorum Kontextüberfluss verhindern?

Ja. PromptQuorum prüft Ihren Prompt-Token-Zähler, Ihr konfiguriertes Kontextfenster und das tatsächliche Limit Ihres Modells, warnt Sie dann vor dem Senden, wenn Überfluss wahrscheinlich ist. Sie können dann vor dem Fortfahren trimmen oder zusammenfassen.

Gehen verschiedene Modelle mit langem Kontext unterschiedlich um?

Ja. Claude Opus 4.7 behält den Fokus über 200k Tokens gut — mit Extended Thinking bis zu 1M. GPT-4o ist solid bei 128k. Kleinere Modelle (z.B. LLaMA 3.1 7B) verlieren manchmal die Argumentationslogik über 8k–16k hinaus, sogar wenn ihr Kontextfenster technisch größer ist. Der sicherste Ansatz: Testen Sie Ihr spezifisches Modell und Ihre Aufgabe.

Quellen

OpenAI, 2026. "API reference: Models and context windows" — offizielle Dokumentation zu Token-Limits und Preisgestaltung pro Modell
Anthropic, 2026. "Claude model context windows and token costs" — Claudes Kontextfenstergrößen und aktuelle Modellübersicht
Raffel et al., 2020. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" — Grundlagenforschung zu Kontextfenstereffekten in Transformers

Kontextfenster erklärt: Warum KI vergisst (und was Sie tun können)