Schnellübersicht
- 1Geprägt: Wei et al. (2022), Google Brain – NeurIPS 2022 Grundlagenpaper
- 2Schlüsselergebnis: Zero-shot CoT erhöhte PaLM 540B Genauigkeit von 17,7 % → 78,7 % auf MultiArith
- 3Auslösephrase: „Denken wir Schritt für Schritt" (Zero-shot) oder Beispiele (Few-shot)
- 42026 Evolution: Integrierte Thinking-Modi (o3, Claude Extended Thinking) automatisieren CoT intern
- 5Kostenfolge: Prompt-Level CoT = mehr Output-Token; Thinking-Modi = separates Thinking-Token-Budget
- 6Best für Prompt-Level CoT: Nicht-Thinking-Modelle (Claude Haiku 4.5, Gemini Flash, GPT-4o mini, LLaMA 4 Scout)
Was Chain-of-Thought Prompting ist
Chain-of-Thought Prompting fordert das Modell auf, Schritt für Schritt zu argumentieren, bevor es zu einer abschließenden Schlussfolgerung kommt. Anstatt nur „die Antwort" zu geben, schreibt das Modell Zwischenberechnungen, logische Schritte oder Erklärungen auf.
Sie können dieses Verhalten durch Anweisungen wie „Denk Schritt für Schritt", „Zeig dein Denken" oder durch Beispiele auslösen, in denen die Argumentation explizit ist. Das Ergebnis ist eine Nachverfolgung, die Sie lesen können, um zu verstehen, wie das Modell zu seiner Schlussfolgerung gelangt ist.
Warum Chain-of-Thought Prompting wichtig ist
Chain-of-Thought Prompting ist wichtig, weil es das Verhalten von Modellen bei mehrstufigen Denkaufgaben transparenter macht. Wenn Sie jeden Schritt sehen, können Sie Missinterpretationen, fehlende Annahmen oder Rechenfehler erkennen.
Dies ist besonders wertvoll in Bereichen wie Analytik, Planung und Fehlerbehebung. Statt einer einzigen undurchsichtigen Ausgabe erhalten Sie eine Erzählung, die überprüft, korrigiert oder als Dokumentation wiederverwendet werden kann.
🔍 Funktioniert mit lokalen Modellen
Chain-of-Thought funktioniert auf jedem Modell mit 7B+ Parametern. Testen Sie es lokal mit Ollama oder LM Studio.
Wann Chain-of-Thought hilft (und wann nicht)
Chain-of-Thought Prompting hilft am meisten bei Aufgaben, die sich natürlicherweise in klare Schritte unterteilen lassen, ist aber nicht für jeden Prompt notwendig. Es glänzt überall dort, wo der Weg genauso wichtig ist wie das Ziel.
Chain-of-Thought-Reasoning ist es, was einen Tool-Calling-Agenten über mehrstufige Aufgaben hinweg zuverlässig macht. Für einen lokalen Agenten-Stack, der einem CoT-fähigen Modell den Zugriff auf Datenbanken und Dateien gibt, siehe Lokale KI-Agenten mit MCP.
Gute Anwendungsfälle sind:
- Mathematische und quantitative Denkaufgaben.
- Mehrstufige logische Rätsel oder Entscheidungsanalysen.
- Ursachenanalyse, Incident Postmortems und Diskussionen über Kompromisse.
- Planungsaufgaben, bei denen die Abfolge der Aktionen explizit sein muss.
Bei einfacher Klassifizierung, schneller Werbetexterstellung oder kurzen faktischen Antworten führt Chain-of-Thought oft zu unnötiger Ausführlichkeit ohne großen zusätzlichen Nutzen. In sensiblen Bereichen möchten Sie möglicherweise auch das Denken intern behalten und nur die endgültige Antwort für Endbenutzer zeigen.
Beispiel: Ohne und mit Chain of Thought
Der Unterschied wird deutlich, wenn Sie einen direkt-antwortenden Prompt mit einem vergleichen, der explizit Argumentation fordert. Hier ist ein einfaches Entscheidungsbeispiel.
Schlechter Prompt
"Welches Projekt sollten wir nächstes Quartal priorisieren?"
Guter Prompt
"Sie sind ein Produktmanager. Wir haben drei Kandidatenprojekte für nächstes Quartal. Verwenden Sie Chain-of-Thought Argumentation, um zu entscheiden, welches Projekt Priorität hat. 1) Notieren Sie die Entscheidungskriterien, die Sie verwenden werden (z. B. Umsatzauswirkung, Risiko, strategische Ausrichtung). 2) Bewerten Sie jedes Projekt Schritt für Schritt gegen diese Kriterien. 3) Geben Sie eine klare Empfehlung ab und rechtfertigen Sie sie in 3–5 Sätzen. Geben Sie am Ende eine kurze abschließende Antwort mit dem Präfix `Empfehlung:` auf einer separaten Zeile."
In der „guten" Version erklärt das Modell, wie es seine Kriterien ausgewählt hat, wie jedes Projekt bewertet wird, und gibt dann eine Empfehlung ab, die Sie in Frage stellen oder akzeptieren können.
Wie man effektive Chain-of-Thought Prompts schreibt
Um effektive Chain-of-Thought Prompts zu schreiben, sollten Sie die Struktur der Argumentation und die Struktur der endgültigen Antwort definieren. Vage Anfragen wie „Erkläre mehr" sind weniger zuverlässig als konkrete Anweisungen.
Ein praktisches Muster ist:
- Sagen Sie dem Modell seine Rolle (z. B. „Sie sind ein leitender Datenanalyst").
- Geben Sie an, dass es Schritt für Schritt denken oder Chain-of-Thought verwenden soll.
- Definieren Sie die Argumentationsabschnitte, die Sie erwarten (z. B. Annahmen, Berechnungen, Vergleich, Schlussfolgerung).
- Fordern Sie am Ende eine kurze, klar gekennzeichnete abschließende Antwort an, damit Sie sie schnell nutzen können.
Dies trennt die detaillierte Argumentation von der prägnanten Ausgabe, was hilfreiche ist, wenn Sie das Ergebnis in andere Tools oder Berichte integrieren.
Chain-of-Thought Prompting in PromptQuorum
PromptQuorum ist ein Multi-Model-KI-Dispatchingtool, bei dem Sie Chain-of-Thought Prompting konsistent über verschiedene Modelle hinweg anwenden können. Sie schreiben einen strukturierten Chain-of-Thought Prompt und versenden ihn parallel an mehrere Anbieter.
In PromptQuorum können Sie:
- Chain-of-Thought Anweisungen mit denk-fokussierten Frameworks wie TRACE oder APE kombinieren, damit Denkschritte explizit gekennzeichnet sind.
- Vergleichen Sie, wie verschiedene Modelle die gleiche Denkaufgabe handhaben, und inspizieren Sie ihre Schritt-für-Schritt-Nachverfolgungen nebeneinander.
- Speichern Sie Chain-of-Thought Prompts als Vorlagen für wiederkehrende Analysen, Incident Reviews oder strategische Entscheidungen.
Dies verwandelt Chain-of-Thought Prompting von einem einmaligen Trick in einen wiederholbaren Teil Ihres Entscheidungsprozesses.
Wie Sie Chain-of-Thought (CoT) Prompting verwenden
- 1Fordern Sie bei Logik-, Denk- oder Debugging-Aufgaben das Modell auf, „Schritt für Schritt zu denken", bevor Sie antworten. Statt „Was ist der Bug?" fragen Sie „Verfolgen Sie die Ausführung Schritt für Schritt, dann identifizieren Sie den Bug."
- 2Geben Sie ein durchgearbeitetes Beispiel mit schrittweiser Argumentation. Beschreiben Sie es nicht nur – zeigen Sie dem Modell, wie schrittweises Denken aussieht. Beispiel: „Zuerst überprüfe ich die Funktionssignatur... Dann verfolge ich den ersten Aufruf mit Eingabe X..."
- 3Verwenden Sie explizite Prompts wie „Denken wir Schritt für Schritt" oder „Zuerst... Dann..." Diese lösen bewussteren Denkprozesse im Modell aus.
- 4Bitten Sie bei komplexen Problemen das Modell, Zwischenausgaben nachzuverfolgen. Beispiel: „Verfolgen Sie die Ausführung dieser Funktion für Eingabe 5. Zeigen Sie den Wert jeder Variablen nach jeder Zeile."
- 5Kombinieren Sie CoT mit überprüfbaren Ausgaben: Bitten Sie das Modell, seine Arbeit zu zeigen, damit Sie sie überprüfen können. „Erklären Sie Ihr Denken bei jedem Schritt. Wenn Sie einen Fehler machen, sollte ich ihn aus Ihrer gezeigten Arbeit erkennen können."
Mathe-Beispiel: Umsatzberechnung
Ohne CoT gibt das Modell möglicherweise nur eine abschließende Antwort. Mit CoT zeigt das Modell Berechnungen schrittweise.
Ohne CoT:
„Ein Kunde kauft 50 Einheiten zu 15 € je Stück und erhält einen 10 %-Rabatt. Wie viel zahlt der Kunde?"
Modell: „675 €"
Mit CoT:
„Ein Kunde kauft 50 Einheiten zu 15 € je Stück und erhält einen 10 %-Rabatt. Arbeite die einzelnen Schritte durch: 1) Berechne die Zwischensumme. 2) Berechne den Rabattbetrag. 3) Ziehe den Rabatt von der Zwischensumme ab, um den Endpreis zu erhalten."
Modell: „1) Zwischensumme = 50 × 15 € = 750 €. 2) Rabatt = 10 % von 750 € = 75 €. 3) Endpreis = 750 € − 75 € = 675 €."
Beide geben die gleiche Antwort, aber die CoT-Version zeigt die Mathematik und ermöglicht es, Fehler zu erkennen (z. B. wenn jemand 10 % von 750 € falsch berechnet).
CoT vs. integrierte Reasoning-Modelle (2026)
2026 haben die Frontier-Modelle – Claude Opus 4.7, OpenAI o3, Gemini Deep Think – integrierte Denkmodi, die Chain-of-Thought automatisch internalisieren. Sie müssen keine „denk Schritt für Schritt"-Anweisungen auf diesen Modellen hinzufügen.
Wann Prompt-Level CoT verwenden: Nicht-Thinking-Modelle (Claude Haiku 4.5, GPT-4o mini, Gemini Flash, Llama 4), lokale LLMs oder wenn Sie die zusätzlichen Kosten für Thinking-Token-Budgets vermeiden möchten.
Wann integrierte Thinking-Modi verwenden: Maximale Genauigkeit auf Frontier-Modellen, mathematiklastige Aufgaben, komplexe Analysen. Diese Modelle berechnen Thinking-Token separat (üblicherweise höherer Satz als Output-Token).
| Ansatz | Am besten für | Kosten | Transparenz | Modelle |
|---|---|---|---|---|
| Prompt-Level CoT („denk Schritt für Schritt") | Kleine Modelle, lokale LLMs, kostensensitive Aufgaben | Erhöht Output-Token | Vollständig: sichtbare Schritte in der Ausgabe | Haiku, Flash, LLaMA, Qwen |
| Claude Extended Thinking (Opus 4.7, Sonnet 4.6) | Komplexe Analysen, maximale Genauigkeit | Separates Thinking-Token-Budget (Input-Satz) | Inspector-Trace via API | Claude Opus 4.7, Claude Sonnet 4.6 |
| OpenAI o3 | Schwierigste Probleme (Mathe, Coding, Wettbewerbe) | Thinking-Token-Budget (höherer Tier) | Verstecktes Denken, sichtbare Ausgabe | OpenAI o3 |
| Gemini Deep Think | Google Cloud Integration, Gemini-Ökosystem | Thinking-Token separat von Ausgabe | thinking_level Parameter (LOW, MEDIUM, HIGH) | Gemini 3.1 Pro |
| DeepSeek R1 | Open-Weights-Option, On-Device Reasoning | Sichtbares Denken in Ausgabetext gestreamt | Vollständig: inline CoT in Ausgabe | DeepSeek R1 |
💡 Tipp
Verwenden Sie für kostenbewusste Systeme Prompt-Level CoT auf kleineren Modellen. Für maximale Genauigkeit bei schwierigen Problemen nutzen Sie o3 oder Claude Extended Thinking und lassen das Modell das Denken intern handhaben.
Chain-of-Thought Varianten und Erweiterungen
Über das grundlegende „denk Schritt für Schritt"-Muster hinaus haben Forscher mehrere CoT-Varianten entwickelt, die jeweils für verschiedene Problemtypen optimiert sind.
- Zero-shot CoT: Fragen Sie „Denken wir Schritt für Schritt" ohne Beispiele. Funktioniert auf den meisten Modellen und ist am einfachsten zu implementieren. Boost: ~10–20 % Genauigkeitsverbesserung bei Denkaufgaben.
- Few-shot CoT: Zeigen Sie 2–5 durchgearbeitete Beispiele mit expliziter Argumentation, dann fragen Sie das Modell, das gleiche Muster auf ein neues Problem anzuwenden. Zuverlässiger als Zero-shot, erfordert aber manuelle Beispielenerstellung. Boost: ~20–40 % Genauigkeit.
- Self-Consistency (Wang et al., 2023): Generieren Sie mehrere unabhängige CoT-Argumentationspfade, dann nehmen Sie eine Mehrheitsentscheidung bei der abschließenden Antwort. Deutlich robuster gegen Fehler. Boost: ~30–50 % bei schwierigen Aufgaben.
- Tree of Thought (ToT): Anstelle einer linearen Kette erkunden Sie mehrere Argumentationszweige und reduzieren schwache aus. Verwenden Sie, wenn es viele mögliche Lösungswege gibt (Planung, Spielaufgaben, kreative Aufgaben).
- ReAct (Reasoning + Acting): Verflechten Sie Argumentation mit externen Aktionen – rufen Sie APIs auf, durchsuchen Datenbanken oder führen Code aus – und integrieren Sie die Ergebnisse zurück in den nächsten Argumentationsschritt. Am besten für reale Aufgaben, die aktuelle Daten oder Verifikation benötigen.
Modellvergleich: Wie Modelle CoT Prompting handhaben (2026)
| Modell | Prompt-Level CoT | Integriertes Thinking | Bester Anwendungsfall | Kosten (ca.) |
|---|---|---|---|---|
| Claude Opus 4.7 | Nicht nötig | Extended Thinking (Trace inspizierbar via API) | Maximale Genauigkeit bei Analysen | Höher (Input + Output + Thinking-Token) |
| Claude Sonnet 4.6 | Nicht nötig | Extended Thinking | Ausgeglichenes Kosten/Genauigkeit-Verhältnis | Mittel |
| Claude Haiku 4.5 | Empfohlen | Keine | Schnelle, kostengünstige Argumentation | Niedrig |
| OpenAI o3 | Nicht nötig | Effort-Levels (low, medium, high, xhigh) | Probleme auf Wettbewerbsniveau | Sehr hoch (Thinking-Token Tier) |
| GPT-4o mini | Empfohlen | Keine | Budgetbewusste Bereitstellung | Sehr niedrig |
| Gemini 3.1 Pro | Funktioniert | Deep Think (thinking_level Param) | Google Cloud Integration | Mittel-Hoch |
| Gemini Flash | Empfohlen | Keine | Schnelle Antworten | Niedrig |
| DeepSeek R1 | Nicht nötig | Inline Reasoning in Ausgabe | Open-Weights, On-Device | Kostenlos (Open Source) |
| Llama 4 | Empfohlen | Keine | Lokale Bereitstellung, Datenschutz | Self-Hosted (Compute-abhängig) |
Weiterführende Literatur
Häufig gestellte Fragen
Funktioniert Chain-of-Thought auf allen Modellen?
Chain-of-Thought funktioniert auf den meisten Modellen mit 7B+ Parametern, aber der Nutzen variiert. Es ist am wirksamsten auf mittleren und kleineren Modellen (Haiku, Flash, Llama 4). Bei Frontier-Modellen (Claude Opus 4.7, o3) sind integrierte Thinking-Modi oft effizienter als Prompt-Level CoT.
Erhöht Chain-of-Thought die Kosten?
Ja, Prompt-Level CoT erhöht die Anzahl der Output-Token (da das Modell die Argumentation vor der abschließenden Antwort schreibt). Integrierte Thinking-Modi (Claude Extended Thinking, OpenAI o3) nutzen separate Thinking-Token-Budgets, die unterschiedliche Abrechnungssätze haben können. Testen Sie beide in Ihrem Anwendungsfall, um den Kompromiss zwischen Kosten und Genauigkeit zu vergleichen.
Wann sollte ich Few-shot CoT statt Zero-shot verwenden?
Verwenden Sie zunächst Zero-shot CoT – es ist einfacher und funktioniert in den meisten Fällen. Wechseln Sie zu Few-shot (mit 2–5 Beispielen), wenn Zero-shot unzuverlässig ist oder wenn Ihre Domäne spezifische Argumentationsmuster erfordert (z. B. Finanzanalyse mit standardisierter Zeilenstruktur).
Kann ich Chain-of-Thought mit strukturierter Ausgabe (JSON) kombinieren?
Ja. Sie können das Modell auffordern, sein Denken zunächst in Klartext zu zeigen, dann ein JSON-Objekt mit der abschließenden Antwort auszugeben. Kombinieren Sie die Anweisungen: „Denk Schritt für Schritt. Geben Sie dann Ihr Ergebnis als gültiges JSON aus." Dies ist häufig in Produktionssystemen.
Was ist der Unterschied zwischen Chain-of-Thought und Tree-of-Thought?
Chain-of-Thought ist eine lineare Abfolge: Schritt 1 → Schritt 2 → ... → Conclusion. Tree-of-Thought erkundet mehrere Zweige (alternative Argumentationspfade) und reduziert schwächere aus, bevor die Antwort erreicht wird. Tree-of-Thought ist mächtiger, aber teurer (benötigt mehrere Modellaufrufe).
Muss ich bei OpenAI o3 Chain-of-Thought Prompting verwenden?
Nein. OpenAI o3 hat integriertes Thinking, das automatisch aktiviert wird. Sie müssen keine „denk Schritt für Schritt"-Anweisungen hinzufügen. Geben Sie o3 einfach das Problem und stellen Sie das Effort Level (low/medium/high/xhigh) ein, um zu steuern, wie viel Thinking-Budget ausgegeben wird.
Muss ich bei der Verwendung von Sprachmodellen in der EU die DSGVO beachten?
Ja. Lokale LLMs mit Chain-of-Thought ermöglichen Datenresidenz und verringern die Abhängigkeit von Cloudanbietern. Bei der Nutzung von API-basierten Modellen müssen Sie Datenverarbeitungsverträge (Data Processing Agreements) prüfen und sicherstellen, dass Sie keine sensiblen Daten ohne Zustimmung an externe Server senden. BSI-Grundschutz-Kataloge empfehlen On-Premise-Lösungen für hochsensible Daten.
Ist Chain-of-Thought für den deutschen Mittelstand geeignet?
Ja, besonders wenn Sie lokale oder selbstgehostete Modelle einsetzen. Kleine und mittlere Unternehmen profitieren von den Transparenz- und Audit-Vorteilen von Chain-of-Thought (auditable Denkprozesse für Compliance). Mit Tools wie Ollama oder LM Studio können Sie CoT kostengünstig auf Standardhardware einsetzen.
Quellen und weiterführende Literatur
- Wei, J., Wang, X., Schuurmans, D., et al. (2022). „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
- Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2022). „Large Language Models are Zero-Shot Reasoners." NeurIPS 2022. arXiv:2205.11916
- Wang, X., Wei, J., Schuurmans, D., et al. (2023). „Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2203.11171
- Anthropic. (2024). „Extended Thinking in Claude." Technische Dokumentation zu Claude Opus 4.7 und Sonnet 4.6 Thinking-Fähigkeiten.
- OpenAI. (2026). „OpenAI o3: Reasoning Models for Competition-Level Problem Solving." OpenAI Dokumentation und Forschungsankündigungen.