PromptQuorumPromptQuorum
Startseite/Prompt Engineering/Kontextfenster erklärt: Warum KI vergisst (und was Sie tun können)
Fundamentals

Kontextfenster erklärt: Warum KI vergisst (und was Sie tun können)

·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

LLMs haben kein Langzeitgedächtnis — sie "sehen" nur ein Schiebefenster mit aktuellen Tokens. Erfahren Sie, warum KI den Kontext vergisst, wie Sie Prompts strukturieren, um innerhalb von Grenzen zu bleiben, und wie Sie Kontextfenster über Cloud- und lokale Modelle hinweg verwalten.

Kontextfenster erklärt: Warum KI vergisst

LLMs haben kein Langzeitgedächtnis — sie "sehen" nur ein Schiebefenster mit aktuellen Tokens, und alles außerhalb dieses Fensters wird vergessen oder komprimiert. Dieser Artikel erklärt, was das für Ihre Prompts bedeutet und wie Sie innerhalb (und außerhalb) dieser Grenzen arbeiten können.

Wichtigste Erkenntnisse

  • Kontextfenster = die maximale Anzahl von Tokens, die ein Modell auf einmal verarbeiten kann; sobald Sie es überschreiten, wird älterer Inhalt gekürzt oder zusammengefasst
  • Tokens ≈ 4 Zeichen im Durchschnitt; ein 4k Kontextfenster ≈ 3.000 Wörter einfachen Text
  • Modelle "merken sich" vorherige Chats nicht — jede Interaktion startet neu innerhalb seines Kontextfensters
  • Kontextüberlastung erhöht Halluzinationen, weil das Modell Lücken mit plausiblen Vermutungen füllt, wenn Originaldetails aus dem Blickfeld verschwinden
  • Prompt-Struktur ist wichtiger als Glück: Platzieren Sie kritische Anweisungen vorne, vermeiden Sie Wiederholungen, fassen Sie lange Austausche zusammen, bevor Sie weitergehen
  • Für lokale LLMs benötigen größere Kontextfenster mehr VRAM — ein 128k Kontextmodell auf einem 7B Parameter-Modell kann 32GB+ RAM erfordern

Was ist ein Kontextfenster?

Ein Kontextfenster ist die maximale Menge an Text (gemessen in Tokens), die ein LLM berücksichtigen kann, wenn es seine nächste Ausgabe generiert.

Stellen Sie sich das als den "sichtbaren Text" des Modells zu jedem gegebenen Moment vor. Wenn Sie eine Nachricht an GPT-4o mit einem 128k Token-Kontextfenster senden, kann das Modell die letzten 128.000 Tokens des Gesprächs "sehen" — ungefähr 96.000 Wörter. Alles davor ist für das Modell unsichtbar und beeinflusst seine Antwort nicht.

Tokens vs. Wörter: Ein Token ist kein Wort. Im Durchschnitt entspricht ein Token ≈ 4 Zeichen oder etwa 0,75 Wörter. Ein 4.000-Token-Kontextfenster ≈ 3.000 Wörter einfachen englischen Text. Für dichten Code oder Sprachen wie Japanisch ist das Verhältnis anders — Japanischer Text benötigt aufgrund der Zeichenkodierung ungefähr 2 Tokens pro Wort.

Kontextfenstergröße variiert stark zwischen Modellen:

Das Prinzip ist bei allen Modellen identisch: Alles außerhalb des Fensters ist unsichtbar.

Warum "vergisst" KI

Wenn die Gesamtzahl der Tokens in einer Konversation (System-Prompt + Chat-Verlauf + Benutzereingabe + Tools + erwartete Ausgabe) das Kontextfenster überschreitet, werden ältere Teile gekürzt, zusammengefasst oder ganz gelöscht.

Das ist nicht Gedächtnisverlust wie menschliche Vergesstlichkeit. Das Modell "denkt nicht und vergisst dann." Es sieht den gekürzten Text buchstäblich nicht — er existiert nicht mehr im Input-Raum des Modells.

Häufige Symptome beim Erreichen des Kontextlimits:

  • Die KI ignoriert oder widerspricht einer Anweisung, die Sie vor 30 Nachrichten gegeben haben
  • In einer langen kreativen Geschichte vergisst das Modell Charakternamen, Details oder Einschränkungen, die Sie früher festgelegt haben
  • In einem Forschungs-Chat über viele Turns hinweg werden Fakten durcheinander gebracht oder das Modell erfindet Informationen neu
  • Die KI ändert plötzlich den Ton oder verletzt Ihre ursprünglichen Einschränkungen ohne Erklärung

Was passiert tatsächlich

Die meisten Chat-Interfaces verwenden eine dieser Strategien:

  1. 1Älteste Nachrichten löschen — Die neuesten N Nachrichten passen ins Fenster; ältere werden ganz verworfen
  2. 2Früheren Chat zusammenfassen — Das System komprimiert frühe Nachrichten in eine kurze Zusammenfassung ("Früher haben Sie X, Y, Z… besprochen") um Kontext zu bewahren
  3. 3System-/Entwickler-Prompts fixieren — Die System-Nachricht bleibt fest, während Benutzernachrichten rotieren

All diese Methoden bewahren den "Kern", verlieren aber spezifische Details. Wenn das Modell die ursprüngliche Anweisung nicht mehr sieht, kann es sie nicht befolgen.

Kontextfenster und Halluzinationen

Kontextüberlastung verstärkt Halluzinationen, weil das Modell Lücken mit plausiblen Vermutungen füllt, wenn die Originalinformation nicht mehr sichtbar ist.

So sieht das Muster aus: Sie bitten die KI, etwas zu referenzieren, das Sie vor 50 Nachrichten erwähnt haben. Diese Nachricht ist aber aus dem Kontextfenster rotiert. Das Modell hat keinen Zugang zur tatsächlichen Tatsache, also generiert es eine plausibel klingende Antwort basierend auf dem, was es aus dem aktuellen Kontext ableitet. Ergebnis: Erfindung.

Daher produzieren hoch-kontextuelle, lange Chats oft mehr Halluzinationen als fokussierte, kurze Austausche. Das Modell verliert nicht seine Argumentationsfähigkeit — es arbeitet mit unvollständiger Information.

Die Beziehung ist direkt: Weniger Kontext → fehlende Verankerung → erhöhtes Halluzinationsrisiko.

Dieser Effekt verstärkt sich mit höheren Temperature und Top-P Einstellungen, die bereits Zufälligkeit erhöhen. Siehe Temperature and Top-P: Control AI Creativity um zu verstehen, wie Parameteroptimierung mit Halluzination interagiert.

Wie Prompt-Design hilft, im Fenster zu bleiben

Strategisches Strukturieren Ihrer Prompts ermöglicht es, mehr innerhalb eines festen Kontext-Budgets zu erreichen.

Kritische Anweisungen vorne platzieren. Platzieren Sie Ihre wichtigsten Einschränkungen, Regeln und Definitionen im System-Prompt oder in der allerersten Benutzernachricht. Diese werden weniger aus dem Kontext fallen als Anweisungen, die 20 Turns später vergraben sind.

Wiederholungen vermeiden. Wenn Sie etwas bereits einmal erklärt haben, kopieren Sie es nicht erneut ein. Referenzieren Sie es stattdessen: "Wie wir in der obigen Zusammenfassung besprochen haben…" Das spart Tokens.

Zusammenfassung explizit machen. Bitten Sie das Modell, die bisherigen wichtigsten Entscheidungen, Einschränkungen oder Fakten zusammenzufassen. Bauen Sie dann die nächste Antwort auf dieser Zusammenfassung auf, anstatt sich auf verstreute frühere Kontexte zu verlassen.

Turns fokussiert halten. Ein langer, mehrteiliger Monolog nutzt den Kontext ineffizient. Teilen Sie ihn in separate, eng begrenzte Austausche auf.

Arbeiten mit langen Dokumenten

Das Einfügen ganzer Bücher oder hundertseiten-langer PDFs in ein einzelnes Kontextfenster ist ineffizient, auch für Claude Opus's 1M Token-Fenster, weil das Modell nicht effektiv über mehrere unterschiedliche Abschnitte hinweg fokussieren kann.

Ein 1.000-Seiten-Buch ≈ 250.000 Tokens. Technisch kann Claude Opus es aufnehmen. Praktisch verschlechtert sich die Argumentationsfähigkeit des Modells, wenn es aufgefordert wird, Fragen über stark unterschiedliche Abschnitte zu beantworten — wie wenn man eine Person auffordert, einen ganzen Roman in einem Sitzen zu lesen und dann spezifische Details von Seite 50, 200 und 400 zu erinnern. Die Erinnerung wird vage.

Bessere Ansätze für lange Dokumente:

  1. 1Abschnitte sequenziell verarbeiten. Extrahieren und analysieren Sie ein Kapitel oder einen Abschnitt auf einmal. Stellen Sie fokussierte Fragen pro Abschnitt: "Was sind die Hauptschlussfolgerungen in Abschnitt 3?" Dann gehen Sie zum nächsten Abschnitt über.
  2. 2Hierarchische Zusammenfassung. Extrahieren Sie Schlüsselpunkte aus Seiten 1–10, dann Seiten 11–20, kombinieren Sie diese Zusammenfassungen dann in eine Kapitel-Zusammenfassung. Kombinieren Sie dann Kapitel in eine Dokument-Zusammenfassung. Dies reduziert das Dokument auf seine wesentlichen Fakten, bewahrt aber Beziehungen.
  3. 3Strukturierte Extraktion. Konvertieren Sie das Dokument in Tabellen, JSON oder Bullet-Listen, *bevor* Sie Fragen auf höherer Ebene stellen. Das komprimiert die Information: Statt 50 Seiten Produktspezifikationen einzufügen, extrahieren Sie die Spezifikationen in eine strukturierte Tabelle, stellen Sie dann Fragen zur Tabelle.
  4. 4Verwenden Sie RAG (Retrieval-Augmented Generation). Für wirklich große Dokumentenmengen (100+ Seiten) funktionieren abrufbasierte Systeme besser. Siehe RAG Explained: How to Ground AI Answers in Real Data wie Sie relevante Abschnitte abrufen statt alles auf einmal zu laden.

Wie PromptQuorum Ihnen hilft, Kontext zu verwalten

Aus meiner Erfahrung beim Aufbau von PromptQuorum habe ich festgestellt, dass die Arbeit nahe an Kontextlimits knifflig ist, weil jedes Modell unterschiedliche Limits, Kürzungsverhalten, Preisgestaltung und (für lokale LLMs) RAM-Anforderungen hat. PromptQuorum hilft Ihnen, das transparent und absichtlich zu machen.

Kontextfenster-Anpassung für lokale LLMs

Wenn Sie ein Modell in LM Studio oder Ollama ausführen, können Sie die Kontextfenstergröße konfigurieren. Standardmäßig stellen Werkzeuge es auf das Maximum des Modells (z.B. 32k für ein 7B-Modell). Aber das ist selten das, was Sie brauchen.

PromptQuorum integriert sich mit LM Studio und ermöglicht es Ihnen, das Kontextfenster pro Aufgabe anzupassen: wählen Sie 4k für leichte, schnelle Q&A; wählen Sie 32k für tiefe Dokumentanalyse; wählen Sie 64k für lange Gespräche. Das macht den Trade-off explizit statt in Config-Dateien versteckt.

Automatische Kontextüberfluss-Checks

PromptQuorum prüft *bevor* Sie senden: Wenn Ihr System-Prompt + aktueller Chat-Verlauf + Ihre neue Eingabe + erwartete Ausgabelänge gegeben sind, passt das in das konfigurierte Kontextfenster für jedes Modell?

Wenn Überfluss wahrscheinlich ist, warnt PromptQuorum Sie oder fordert Sie auf, den Chat zu trimmen/zusammenzufassen, bevor Sie senden. Keine Überraschung durch Kürzung mehr. Keine Rätsel darüber, warum die KI "vergessen hat."

Kontextfenster ↔ RAM Trade-off

Für lokale Modelle benötigen größere Kontextfenster exponentiell mehr RAM. Ein 7B Parameter-Modell mit 4k Kontextfenster benötigt ~14GB RAM. Das gleiche Modell mit 128k Kontextfenster benötigt 32GB+. Gehen Sie weiter und die GPU läuft aus RAM, stürzt ab oder fällt auf CPU-Inferenz zurück (was 10–100× langsamer ist).

PromptQuorum zeigt Ihnen diese Beziehung: "Dieses Kontextfenstergröße wird ~28GB RAM auf Ihrer Hardware verwenden. Sie haben 16GB verfügbar." Sie können dann das Kontextfenster für Ihre Aufgabe und Hardware richtig dimensionieren, statt Abstürze während der Inferenz zu entdecken.

Multi-Modell-Bewusstsein

Wenn Sie einen Prompt an GPT-4o (128k Fenster), Claude (200k Fenster) und ein lokales 7B-Modell (Ihr gewähltes 32k Fenster) versenden, behält PromptQuorum Ihren Prompt automatisch innerhalb aller drei Grenzen. Ein Prompt, mehrere Modelle, kein manuelles Umschreiben.

Praktische Rezepte für Kontextverwaltung

Rezept 1: Langer Chat über ein Projekt

Ziel: Ein Multi-Turn-Gespräch über ein einzelnes Projekt führen, ohne frühere Entscheidungen zu verlieren.

  1. 1Betten Sie in Ihren System-Prompt die Schlüsselbeschränkungen des Projekts (Umfang, Zielgruppe, Ton, technische Limits) einmal ein. Wiederholen Sie sie nicht.
  2. 2Nach jedem 10–15 Austausch bitten Sie das Modell, den aktuellen Status zusammenzufassen: "Was sind die 5 wichtigsten Entscheidungen, die wir bisher getroffen haben?"
  3. 3Verwenden Sie diese Zusammenfassung als Kontext Ihres nächsten Turns, statt sich auf verstreute frühere Nachrichten zu verlassen.
  4. 4In PromptQuorum stellen Sie ein Kontextfenster von 32k–64k ein und aktivieren Überfluss-Warnungen, damit Sie wissen, wann Sie zusammenfassen sollten.

Rezept 2: Analyse eines langen Berichts

Ziel: Erkenntnisse aus einem 50–100-Seiten-Dokument extrahieren.

  1. 1Teilen Sie das Dokument in 3–5 Abschnitte (Kapitel, Teile).
  2. 2Für jeden Abschnitt schreiben Sie einen fokussierten Prompt: "Fassen Sie die Schlüsselergebnisse dieses Abschnitts in 5 Bullet Points zusammen."
  3. 3Sammeln Sie diese 5 Zusammenfassungen von jedem Abschnitt.
  4. 4In einem letzten Turn fragen Sie: "Angesichts dieser Abschnittszusammenfassungen, was ist die Gesamtschlussfolgerung?"
  5. 5Sie sind gut innerhalb der Kontextlimits geblieben und haben das "im Buch verloren" Problem vermieden.

Rezept 3: Prompting am Rande des Kontextfensters

Ziel: Das fast vollständige Kontextfenster ohne Überfluss verwenden.

  1. 1Berechnen Sie Ihr Budget: Kontextfenstergröße − System-Prompt-Tokens − erwartete Ausgabe-Tokens = verfügbare Tokens für Ihre Eingabe + Verlauf.
  2. 2Beispiel: 128k Fenster, 200-Token System-Prompt, 1k Ausgabe-Puffer = 126,8k verfügbare Tokens.
  3. 3Bevor Sie senden, überprüfen Sie in PromptQuorum: "Wie viele Tokens verbraucht diese Eingabe?"
  4. 4Wenn nah am Limit, trimmen Sie den ältesten Turn oder fassen Sie ihn zusammen, bevor Sie fortfahren.
  5. 5Dies hält Sie absichtlich nah am Limit betrieblich, nicht zufällig es zu erreichen.

Rezept 4: Lokales LLM mit begrenztem RAM

Ziel: Ein lokales Modell effektiv ohne Abstürze ausführen.

  1. 1Beginnen Sie mit einem konservativen Kontextfenster (8k–16k) für Ihres Modells RAM.
  2. 2In PromptQuroums Einstellungen notieren Sie die RAM-Anforderung bei dieser Fenstergröße.
  3. 3Führen Sie Ihre Aufgabe aus. Wenn Sie Überfluss haben, fassen Sie den Chat zusammen und starten Sie von der Zusammenfassung neu.
  4. 4Wenn Sie sich dem Limit nie nähern, erhöhen Sie langsam das Kontextfenster und testen Sie erneut.
  5. 5Finden Sie das "richtig dimensionierte" Kontextfenster Ihres Modells für Ihre Hardware und Aufgaben.

Häufige Fehler bei Kontextfenstern

  • "Das Modell merkt sich alle meine bisherigen Chats." Nein. Jedes neue Gespräch startet mit null Kontext aus früheren Chats. Sogar innerhalb eines Chats, sobald Ihr Austausch das Kontextfenster überschreitet, ist es weg.
  • "Ich werde einfach den gleichen langen Kontext bei jedem Turn einfügen." Das verschwendet Tokens und hilft nicht — das Modell kann trotzdem nicht über 300 Seiten effektiv nachdenken. Fassen Sie stattdessen zusammen und referenzieren Sie die Zusammenfassung.
  • "Ich werde fünf verschiedene Projekte in ein lange Gespräch mischen." Jedes Projekt konkurriert um Tokens. Wenn Kontext sich füllt, werden Details gekürzt. Verwenden Sie separate Chats pro Projekt.
  • "Die KI ist schlecht beim Nachdenken — muss Temperature oder Top-P sein." Vielleicht. Aber zuerst kontrollieren Sie das Kontextfenster. Wenn das Modell die ursprüngliche Einschränkung nicht mehr sieht, ist das kein Parameter-Problem; es ist fehlende Information.
  • "Ich werde das Kontextfenster auf meinem lokalen LLM maximieren." Dann läuft Ihnen der RAM aus, der Prozess stürzt ab und die Inferenz fällt auf langsamen CPU-Modus zurück. Stellen Sie stattdessen Kontext Ihrer Hardware ein.
  • "Die App hat mich vor Überfluss gewarnt, aber ich habe es trotzdem gesendet." Vertrauen Sie der Warnung. Überfluss führt zu stiller Kürzung, versteckten Halluzinationen und verschwendeten Tokens. Fassen Sie erst zusammen.

FAQ

Merkt sich das Modell meine bisherigen Chats?

Nein. Jede neue Chatsession startet mit null Verlauf. Das Modell sieht nur Tokens innerhalb des aktuellen Kontextfensters. Wenn Sie auf einen bisherigen Chat referenzieren möchten, müssen Sie relevante Teile in das aktuelle Gespräch kopieren.

Warum hat die KI eine Anweisung ignoriert, die ich vor 20 Nachrichten gegeben habe?

Diese Anweisung ist wahrscheinlich aus dem Kontextfenster gefallen. Das Modell sieht sie nicht mehr, also kann es sie nicht befolgen. Lösung: Wiederholen Sie kritische Anweisungen in Ihrem System-Prompt oder bitten Sie das Modell, die Anweisung mitten im Gespräch zu rekapitulieren und erneut einzubetten.

Ist ein größeres Kontextfenster immer besser?

Nein. Ein größeres Fenster ermöglicht es, mehr Inhalte einzufügen, aber es erhöht auch die Kosten (mehr Tokens zum Verarbeiten) und für lokale Modelle RAM-Nutzung. Wählen Sie ein Kontextfenster, das zu Ihrer Aufgabe passt: 4k für einfache Q&A, 32k für lange Gespräche, 128k+ für Dokumentanalyse. Größer ist nicht "besser" — *angemessen* ist besser.

Wie weiß ich, wann ich das Kontextlimit erreicht habe?

Die Antworten des Modells ändern den Ton, widersprechen früheren Anweisungen oder verlieren den Überblick über Details, die Sie früher festgelegt haben. Verwenden Sie PromptQuroums Kontextüberfluss-Check vor dem Senden — er warnt Sie, wenn Sie sich dem Limit nähern.

Wie beeinflusst die Kontextfenstergröße die RAM-Nutzung für lokale Modelle?

Größere Kontextfenster verwenden ungefähr proportional mehr RAM: Das Verdoppeln des Kontextfensters verdoppelt ungefähr die RAM-Nutzung. Ein 7B-Modell bei 4k Kontext ≈ 14GB RAM; bei 32k Kontext ≈ 28GB RAM. Überprüfen Sie PromptQuroums RAM-Rechner, um Ihres Hardware-Decke zu kennen.

Können Werkzeuge wie PromptQuorum Kontextüberfluss verhindern?

Ja. PromptQuorum prüft Ihren Prompt-Token-Zähler, Ihr konfiguriertes Kontextfenster und das tatsächliche Limit Ihres Modells, warnt Sie dann vor dem Senden, wenn Überfluss wahrscheinlich ist. Sie können dann vor dem Fortfahren trimmen oder zusammenfassen.

Gehen verschiedene Modelle mit langem Kontext unterschiedlich um?

Ja. Claude 3.5 Sonnet behält den Fokus über 200k Tokens gut. GPT-4o ist solid bei 128k. Kleinere Modelle (z.B. LLaMA 2 7B) verlieren manchmal die Argumentationslogik über 8k–16k hinaus, sogar wenn ihr Kontextfenster technisch größer ist. Der sicherste Ansatz: Testen Sie Ihr spezifisches Modell und Ihre Aufgabe.

Verwandte Lektüre

Quellen

Wenden Sie diese Techniken gleichzeitig mit 25+ KI-Modellen in PromptQuorum an.

PromptQuorum kostenlos testen →

← Zurück zu Prompt Engineering

Kontextfenster erklärt: Warum KI vergisst (und was Sie tun können) | PromptQuorum