Chain-of-Thought Prompting ist eine Technik, bei der Sie die KI explizit auffordern, ihre Denkschritte zu zeigen, statt direkt zur Antwort zu springen. Dies macht komplexe Entscheidungen leichter nachvollziehbar, debugbar und im Laufe der Zeit verbesserbar.

Schnellübersicht

1
Geprägt: Wei et al. (2022), Google Brain – NeurIPS 2022 Grundlagenpaper
2
Schlüsselergebnis: Zero-shot CoT erhöhte PaLM 540B Genauigkeit von 17,7 % → 78,7 % auf MultiArith
3
Auslösephrase: „Denken wir Schritt für Schritt" (Zero-shot) oder Beispiele (Few-shot)
4
2026 Evolution: Integrierte Thinking-Modi (o3, Claude Extended Thinking) automatisieren CoT intern
5
Kostenfolge: Prompt-Level CoT = mehr Output-Token; Thinking-Modi = separates Thinking-Token-Budget
6
Best für Prompt-Level CoT: Nicht-Thinking-Modelle (Claude Haiku 4.5, Gemini Flash, GPT-4o mini, LLaMA 4 Scout)

Was Chain-of-Thought Prompting ist

Chain-of-Thought Prompting fordert das Modell auf, Schritt für Schritt zu argumentieren, bevor es zu einer abschließenden Schlussfolgerung kommt. Anstatt nur „die Antwort" zu geben, schreibt das Modell Zwischenberechnungen, logische Schritte oder Erklärungen auf.

Sie können dieses Verhalten durch Anweisungen wie „Denk Schritt für Schritt", „Zeig dein Denken" oder durch Beispiele auslösen, in denen die Argumentation explizit ist. Das Ergebnis ist eine Nachverfolgung, die Sie lesen können, um zu verstehen, wie das Modell zu seiner Schlussfolgerung gelangt ist.

Warum Chain-of-Thought Prompting wichtig ist

Chain-of-Thought Prompting ist wichtig, weil es das Verhalten von Modellen bei mehrstufigen Denkaufgaben transparenter macht. Wenn Sie jeden Schritt sehen, können Sie Missinterpretationen, fehlende Annahmen oder Rechenfehler erkennen.

Dies ist besonders wertvoll in Bereichen wie Analytik, Planung und Fehlerbehebung. Statt einer einzigen undurchsichtigen Ausgabe erhalten Sie eine Erzählung, die überprüft, korrigiert oder als Dokumentation wiederverwendet werden kann.

🔍 Funktioniert mit lokalen Modellen

Chain-of-Thought funktioniert auf jedem Modell mit 7B+ Parametern. Testen Sie es lokal mit Ollama oder LM Studio.

Wann Chain-of-Thought hilft (und wann nicht)

Chain-of-Thought Prompting hilft am meisten bei Aufgaben, die sich natürlicherweise in klare Schritte unterteilen lassen, ist aber nicht für jeden Prompt notwendig. Es glänzt überall dort, wo der Weg genauso wichtig ist wie das Ziel.

Chain-of-Thought-Reasoning ist es, was einen Tool-Calling-Agenten über mehrstufige Aufgaben hinweg zuverlässig macht. Für einen lokalen Agenten-Stack, der einem CoT-fähigen Modell den Zugriff auf Datenbanken und Dateien gibt, siehe Lokale KI-Agenten mit MCP.

Gute Anwendungsfälle sind:

Mathematische und quantitative Denkaufgaben.
Mehrstufige logische Rätsel oder Entscheidungsanalysen.
Ursachenanalyse, Incident Postmortems und Diskussionen über Kompromisse.
Planungsaufgaben, bei denen die Abfolge der Aktionen explizit sein muss.

Bei einfacher Klassifizierung, schneller Werbetexterstellung oder kurzen faktischen Antworten führt Chain-of-Thought oft zu unnötiger Ausführlichkeit ohne großen zusätzlichen Nutzen. In sensiblen Bereichen möchten Sie möglicherweise auch das Denken intern behalten und nur die endgültige Antwort für Endbenutzer zeigen.

Beispiel: Ohne und mit Chain of Thought

Der Unterschied wird deutlich, wenn Sie einen direkt-antwortenden Prompt mit einem vergleichen, der explizit Argumentation fordert. Hier ist ein einfaches Entscheidungsbeispiel.

Schlechter Prompt

"Welches Projekt sollten wir nächstes Quartal priorisieren?"

Guter Prompt

"Sie sind ein Produktmanager. Wir haben drei Kandidatenprojekte für nächstes Quartal. Verwenden Sie Chain-of-Thought Argumentation, um zu entscheiden, welches Projekt Priorität hat. 1) Notieren Sie die Entscheidungskriterien, die Sie verwenden werden (z. B. Umsatzauswirkung, Risiko, strategische Ausrichtung). 2) Bewerten Sie jedes Projekt Schritt für Schritt gegen diese Kriterien. 3) Geben Sie eine klare Empfehlung ab und rechtfertigen Sie sie in 3–5 Sätzen. Geben Sie am Ende eine kurze abschließende Antwort mit dem Präfix `Empfehlung:` auf einer separaten Zeile."

In der „guten" Version erklärt das Modell, wie es seine Kriterien ausgewählt hat, wie jedes Projekt bewertet wird, und gibt dann eine Empfehlung ab, die Sie in Frage stellen oder akzeptieren können.

Wie man effektive Chain-of-Thought Prompts schreibt

Um effektive Chain-of-Thought Prompts zu schreiben, sollten Sie die Struktur der Argumentation und die Struktur der endgültigen Antwort definieren. Vage Anfragen wie „Erkläre mehr" sind weniger zuverlässig als konkrete Anweisungen.

Ein praktisches Muster ist:

Sagen Sie dem Modell seine Rolle (z. B. „Sie sind ein leitender Datenanalyst").
Geben Sie an, dass es Schritt für Schritt denken oder Chain-of-Thought verwenden soll.
Definieren Sie die Argumentationsabschnitte, die Sie erwarten (z. B. Annahmen, Berechnungen, Vergleich, Schlussfolgerung).
Fordern Sie am Ende eine kurze, klar gekennzeichnete abschließende Antwort an, damit Sie sie schnell nutzen können.

Dies trennt die detaillierte Argumentation von der prägnanten Ausgabe, was hilfreiche ist, wenn Sie das Ergebnis in andere Tools oder Berichte integrieren.

Chain-of-Thought Prompting in PromptQuorum

PromptQuorum ist ein Multi-Model-KI-Dispatchingtool, bei dem Sie Chain-of-Thought Prompting konsistent über verschiedene Modelle hinweg anwenden können. Sie schreiben einen strukturierten Chain-of-Thought Prompt und versenden ihn parallel an mehrere Anbieter.

In PromptQuorum können Sie:

Chain-of-Thought Anweisungen mit denk-fokussierten Frameworks wie TRACE oder APE kombinieren, damit Denkschritte explizit gekennzeichnet sind.
Vergleichen Sie, wie verschiedene Modelle die gleiche Denkaufgabe handhaben, und inspizieren Sie ihre Schritt-für-Schritt-Nachverfolgungen nebeneinander.
Speichern Sie Chain-of-Thought Prompts als Vorlagen für wiederkehrende Analysen, Incident Reviews oder strategische Entscheidungen.

Dies verwandelt Chain-of-Thought Prompting von einem einmaligen Trick in einen wiederholbaren Teil Ihres Entscheidungsprozesses.

Wie Sie Chain-of-Thought (CoT) Prompting verwenden

1
Fordern Sie bei Logik-, Denk- oder Debugging-Aufgaben das Modell auf, „Schritt für Schritt zu denken", bevor Sie antworten. Statt „Was ist der Bug?" fragen Sie „Verfolgen Sie die Ausführung Schritt für Schritt, dann identifizieren Sie den Bug."
2
Geben Sie ein durchgearbeitetes Beispiel mit schrittweiser Argumentation. Beschreiben Sie es nicht nur – zeigen Sie dem Modell, wie schrittweises Denken aussieht. Beispiel: „Zuerst überprüfe ich die Funktionssignatur... Dann verfolge ich den ersten Aufruf mit Eingabe X..."
3
Verwenden Sie explizite Prompts wie „Denken wir Schritt für Schritt" oder „Zuerst... Dann..." Diese lösen bewussteren Denkprozesse im Modell aus.
4
Bitten Sie bei komplexen Problemen das Modell, Zwischenausgaben nachzuverfolgen. Beispiel: „Verfolgen Sie die Ausführung dieser Funktion für Eingabe 5. Zeigen Sie den Wert jeder Variablen nach jeder Zeile."
5
Kombinieren Sie CoT mit überprüfbaren Ausgaben: Bitten Sie das Modell, seine Arbeit zu zeigen, damit Sie sie überprüfen können. „Erklären Sie Ihr Denken bei jedem Schritt. Wenn Sie einen Fehler machen, sollte ich ihn aus Ihrer gezeigten Arbeit erkennen können."

Mathe-Beispiel: Umsatzberechnung

Ohne CoT gibt das Modell möglicherweise nur eine abschließende Antwort. Mit CoT zeigt das Modell Berechnungen schrittweise.

Ohne CoT:

„Ein Kunde kauft 50 Einheiten zu 15 € je Stück und erhält einen 10 %-Rabatt. Wie viel zahlt der Kunde?"

Modell: „675 €"

Mit CoT:

„Ein Kunde kauft 50 Einheiten zu 15 € je Stück und erhält einen 10 %-Rabatt. Arbeite die einzelnen Schritte durch: 1) Berechne die Zwischensumme. 2) Berechne den Rabattbetrag. 3) Ziehe den Rabatt von der Zwischensumme ab, um den Endpreis zu erhalten."

Modell: „1) Zwischensumme = 50 × 15 € = 750 €. 2) Rabatt = 10 % von 750 € = 75 €. 3) Endpreis = 750 € − 75 € = 675 €."

Beide geben die gleiche Antwort, aber die CoT-Version zeigt die Mathematik und ermöglicht es, Fehler zu erkennen (z. B. wenn jemand 10 % von 750 € falsch berechnet).

CoT vs. integrierte Reasoning-Modelle (2026)

2026 haben die Frontier-Modelle – Claude Opus 4.7, OpenAI o3, Gemini Deep Think – integrierte Denkmodi, die Chain-of-Thought automatisch internalisieren. Sie müssen keine „denk Schritt für Schritt"-Anweisungen auf diesen Modellen hinzufügen.

Wann Prompt-Level CoT verwenden: Nicht-Thinking-Modelle (Claude Haiku 4.5, GPT-4o mini, Gemini Flash, Llama 4), lokale LLMs oder wenn Sie die zusätzlichen Kosten für Thinking-Token-Budgets vermeiden möchten.

Wann integrierte Thinking-Modi verwenden: Maximale Genauigkeit auf Frontier-Modellen, mathematiklastige Aufgaben, komplexe Analysen. Diese Modelle berechnen Thinking-Token separat (üblicherweise höherer Satz als Output-Token).

Ansatz	Am besten für	Kosten	Transparenz	Modelle
Prompt-Level CoT („denk Schritt für Schritt")	Kleine Modelle, lokale LLMs, kostensensitive Aufgaben	Erhöht Output-Token	Vollständig: sichtbare Schritte in der Ausgabe	Haiku, Flash, LLaMA, Qwen
Claude Extended Thinking (Opus 4.7, Sonnet 4.6)	Komplexe Analysen, maximale Genauigkeit	Separates Thinking-Token-Budget (Input-Satz)	Inspector-Trace via API	Claude Opus 4.7, Claude Sonnet 4.6
OpenAI o3	Schwierigste Probleme (Mathe, Coding, Wettbewerbe)	Thinking-Token-Budget (höherer Tier)	Verstecktes Denken, sichtbare Ausgabe	OpenAI o3
Gemini Deep Think	Google Cloud Integration, Gemini-Ökosystem	Thinking-Token separat von Ausgabe	thinking_level Parameter (LOW, MEDIUM, HIGH)	Gemini 3.1 Pro
DeepSeek R1	Open-Weights-Option, On-Device Reasoning	Sichtbares Denken in Ausgabetext gestreamt	Vollständig: inline CoT in Ausgabe	DeepSeek R1

💡 Tipp

Verwenden Sie für kostenbewusste Systeme Prompt-Level CoT auf kleineren Modellen. Für maximale Genauigkeit bei schwierigen Problemen nutzen Sie o3 oder Claude Extended Thinking und lassen das Modell das Denken intern handhaben.

Chain-of-Thought Varianten und Erweiterungen

Über das grundlegende „denk Schritt für Schritt"-Muster hinaus haben Forscher mehrere CoT-Varianten entwickelt, die jeweils für verschiedene Problemtypen optimiert sind.

Zero-shot CoT: Fragen Sie „Denken wir Schritt für Schritt" ohne Beispiele. Funktioniert auf den meisten Modellen und ist am einfachsten zu implementieren. Boost: ~10–20 % Genauigkeitsverbesserung bei Denkaufgaben.
Few-shot CoT: Zeigen Sie 2–5 durchgearbeitete Beispiele mit expliziter Argumentation, dann fragen Sie das Modell, das gleiche Muster auf ein neues Problem anzuwenden. Zuverlässiger als Zero-shot, erfordert aber manuelle Beispielenerstellung. Boost: ~20–40 % Genauigkeit.
Self-Consistency (Wang et al., 2023): Generieren Sie mehrere unabhängige CoT-Argumentationspfade, dann nehmen Sie eine Mehrheitsentscheidung bei der abschließenden Antwort. Deutlich robuster gegen Fehler. Boost: ~30–50 % bei schwierigen Aufgaben.
Tree of Thought (ToT): Anstelle einer linearen Kette erkunden Sie mehrere Argumentationszweige und reduzieren schwache aus. Verwenden Sie, wenn es viele mögliche Lösungswege gibt (Planung, Spielaufgaben, kreative Aufgaben).
ReAct (Reasoning + Acting): Verflechten Sie Argumentation mit externen Aktionen – rufen Sie APIs auf, durchsuchen Datenbanken oder führen Code aus – und integrieren Sie die Ergebnisse zurück in den nächsten Argumentationsschritt. Am besten für reale Aufgaben, die aktuelle Daten oder Verifikation benötigen.

Modellvergleich: Wie Modelle CoT Prompting handhaben (2026)

Modell	Prompt-Level CoT	Integriertes Thinking	Bester Anwendungsfall	Kosten (ca.)
Claude Opus 4.7	Nicht nötig	Extended Thinking (Trace inspizierbar via API)	Maximale Genauigkeit bei Analysen	Höher (Input + Output + Thinking-Token)
Claude Sonnet 4.6	Nicht nötig	Extended Thinking	Ausgeglichenes Kosten/Genauigkeit-Verhältnis	Mittel
Claude Haiku 4.5	Empfohlen	Keine	Schnelle, kostengünstige Argumentation	Niedrig
OpenAI o3	Nicht nötig	Effort-Levels (low, medium, high, xhigh)	Probleme auf Wettbewerbsniveau	Sehr hoch (Thinking-Token Tier)
GPT-4o mini	Empfohlen	Keine	Budgetbewusste Bereitstellung	Sehr niedrig
Gemini 3.1 Pro	Funktioniert	Deep Think (thinking_level Param)	Google Cloud Integration	Mittel-Hoch
Gemini Flash	Empfohlen	Keine	Schnelle Antworten	Niedrig
DeepSeek R1	Nicht nötig	Inline Reasoning in Ausgabe	Open-Weights, On-Device	Kostenlos (Open Source)
Llama 4	Empfohlen	Keine	Lokale Bereitstellung, Datenschutz	Self-Hosted (Compute-abhängig)

Weiterführende Literatur

Häufig gestellte Fragen

Funktioniert Chain-of-Thought auf allen Modellen?

Chain-of-Thought funktioniert auf den meisten Modellen mit 7B+ Parametern, aber der Nutzen variiert. Es ist am wirksamsten auf mittleren und kleineren Modellen (Haiku, Flash, Llama 4). Bei Frontier-Modellen (Claude Opus 4.7, o3) sind integrierte Thinking-Modi oft effizienter als Prompt-Level CoT.

Erhöht Chain-of-Thought die Kosten?

Ja, Prompt-Level CoT erhöht die Anzahl der Output-Token (da das Modell die Argumentation vor der abschließenden Antwort schreibt). Integrierte Thinking-Modi (Claude Extended Thinking, OpenAI o3) nutzen separate Thinking-Token-Budgets, die unterschiedliche Abrechnungssätze haben können. Testen Sie beide in Ihrem Anwendungsfall, um den Kompromiss zwischen Kosten und Genauigkeit zu vergleichen.

Wann sollte ich Few-shot CoT statt Zero-shot verwenden?

Verwenden Sie zunächst Zero-shot CoT – es ist einfacher und funktioniert in den meisten Fällen. Wechseln Sie zu Few-shot (mit 2–5 Beispielen), wenn Zero-shot unzuverlässig ist oder wenn Ihre Domäne spezifische Argumentationsmuster erfordert (z. B. Finanzanalyse mit standardisierter Zeilenstruktur).

Kann ich Chain-of-Thought mit strukturierter Ausgabe (JSON) kombinieren?

Ja. Sie können das Modell auffordern, sein Denken zunächst in Klartext zu zeigen, dann ein JSON-Objekt mit der abschließenden Antwort auszugeben. Kombinieren Sie die Anweisungen: „Denk Schritt für Schritt. Geben Sie dann Ihr Ergebnis als gültiges JSON aus." Dies ist häufig in Produktionssystemen.

Was ist der Unterschied zwischen Chain-of-Thought und Tree-of-Thought?

Chain-of-Thought ist eine lineare Abfolge: Schritt 1 → Schritt 2 → ... → Conclusion. Tree-of-Thought erkundet mehrere Zweige (alternative Argumentationspfade) und reduziert schwächere aus, bevor die Antwort erreicht wird. Tree-of-Thought ist mächtiger, aber teurer (benötigt mehrere Modellaufrufe).

Muss ich bei OpenAI o3 Chain-of-Thought Prompting verwenden?

Nein. OpenAI o3 hat integriertes Thinking, das automatisch aktiviert wird. Sie müssen keine „denk Schritt für Schritt"-Anweisungen hinzufügen. Geben Sie o3 einfach das Problem und stellen Sie das Effort Level (low/medium/high/xhigh) ein, um zu steuern, wie viel Thinking-Budget ausgegeben wird.

Muss ich bei der Verwendung von Sprachmodellen in der EU die DSGVO beachten?

Ja. Lokale LLMs mit Chain-of-Thought ermöglichen Datenresidenz und verringern die Abhängigkeit von Cloudanbietern. Bei der Nutzung von API-basierten Modellen müssen Sie Datenverarbeitungsverträge (Data Processing Agreements) prüfen und sicherstellen, dass Sie keine sensiblen Daten ohne Zustimmung an externe Server senden. BSI-Grundschutz-Kataloge empfehlen On-Premise-Lösungen für hochsensible Daten.

Ist Chain-of-Thought für den deutschen Mittelstand geeignet?

Ja, besonders wenn Sie lokale oder selbstgehostete Modelle einsetzen. Kleine und mittlere Unternehmen profitieren von den Transparenz- und Audit-Vorteilen von Chain-of-Thought (auditable Denkprozesse für Compliance). Mit Tools wie Ollama oder LM Studio können Sie CoT kostengünstig auf Standardhardware einsetzen.

Quellen und weiterführende Literatur

Wei, J., Wang, X., Schuurmans, D., et al. (2022). „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2022). „Large Language Models are Zero-Shot Reasoners." NeurIPS 2022. arXiv:2205.11916
Wang, X., Wei, J., Schuurmans, D., et al. (2023). „Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2203.11171
Anthropic. (2024). „Extended Thinking in Claude." Technische Dokumentation zu Claude Opus 4.7 und Sonnet 4.6 Thinking-Fähigkeiten.
OpenAI. (2026). „OpenAI o3: Reasoning Models for Competition-Level Problem Solving." OpenAI Dokumentation und Forschungsankündigungen.

Chain-of-Thought Prompting: Lassen Sie die KI ihr Denken zeigen