PromptQuorumPromptQuorum
Startseite/Prompt Engineering/Chain-of-Thought Prompting: Lassen Sie die KI ihr Denken zeigen
Techniques

Chain-of-Thought Prompting: Lassen Sie die KI ihr Denken zeigen

·13 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Chain-of-Thought Prompting ist eine Technik, bei der Sie die KI explizit auffordern, ihre Denkschritte zu zeigen, statt direkt zur Antwort zu springen. Dies macht komplexe Entscheidungen leichter nachvollziehbar, debugbar und im Laufe der Zeit verbesserbar.

Chain-of-Thought (CoT) Prompting fordert ein KI-Modell auf, seine Denkschritte Schritt für Schritt zu zeigen, bevor es eine abschließende Antwort gibt. Dies verbessert die Genauigkeit bei Mathe-, Logik- und mehrstufigen Aufgaben. 2026 haben Modelle wie Claude Opus 4.7 und OpenAI o3 integrierte Denkfunktionen, die CoT intern automatisieren – aber Prompt-Level CoT bleibt wertvoll bei kleineren und nicht-denkfähigen Modellen, wo es der Hauptweg ist, um strukturiertes Denken hervorzurufen.

  1. 1
    Chain-of-Thought Prompting fordert Modelle auf, ihre Denkschritte vor der abschließenden Antwort zu zeigen, verbessert die Genauigkeit bei Mathe-, Logik- und mehrstufigen Aufgaben.
  2. 2
    Zero-shot CoT („denk Schritt für Schritt") funktioniert auf den meisten Modellen. Few-shot CoT (mit Beispielen) ist zuverlässiger.
  3. 3
    2026 haben Modelle wie Claude Opus 4.7 und OpenAI o3 integrierte Thinking-Modi, die Prompt-Level CoT ersetzen – Sie müssen nicht „denk Schritt für Schritt" sagen.
  4. 4
    CoT erhöht die Output-Token und damit die Kosten. Integrierte Thinking-Modi haben separate Thinking-Token-Budgets mit eigenem Billing.
  5. 5
    Nutzen Sie Prompt-Level CoT bei kleineren Modellen (Haiku, Flash, LLaMA 4) kostengünstig. Nutzen Sie integrierte Thinking-Modi bei Frontier-Modellen für maximale Genauigkeit.
  6. 6
    CoT ist wertvoll für Mathe, Logik, Planung und Ursachenanalyse. Überspringen Sie es bei einfacher Klassifizierung, kurzen Antworten und schneller Werbetexterstellung.

Schnellübersicht

  1. 1
    Geprägt: Wei et al. (2022), Google Brain – NeurIPS 2022 Grundlagenpaper
  2. 2
    Schlüsselergebnis: Zero-shot CoT erhöhte PaLM 540B Genauigkeit von 17,7 % → 78,7 % auf MultiArith
  3. 3
    Auslösephrase: „Denken wir Schritt für Schritt" (Zero-shot) oder Beispiele (Few-shot)
  4. 4
    2026 Evolution: Integrierte Thinking-Modi (o3, Claude Extended Thinking) automatisieren CoT intern
  5. 5
    Kostenfolge: Prompt-Level CoT = mehr Output-Token; Thinking-Modi = separates Thinking-Token-Budget
  6. 6
    Best für Prompt-Level CoT: Nicht-Thinking-Modelle (Claude Haiku 4.5, Gemini Flash, GPT-4o mini, LLaMA 4 Scout)

Was Chain-of-Thought Prompting ist

Chain-of-Thought Prompting fordert das Modell auf, Schritt für Schritt zu argumentieren, bevor es zu einer abschließenden Schlussfolgerung kommt. Anstatt nur „die Antwort" zu geben, schreibt das Modell Zwischenberechnungen, logische Schritte oder Erklärungen auf.

Sie können dieses Verhalten durch Anweisungen wie „Denk Schritt für Schritt", „Zeig dein Denken" oder durch Beispiele auslösen, in denen die Argumentation explizit ist. Das Ergebnis ist eine Nachverfolgung, die Sie lesen können, um zu verstehen, wie das Modell zu seiner Schlussfolgerung gelangt ist.

Warum Chain-of-Thought Prompting wichtig ist

Chain-of-Thought Prompting ist wichtig, weil es das Verhalten von Modellen bei mehrstufigen Denkaufgaben transparenter macht. Wenn Sie jeden Schritt sehen, können Sie Missinterpretationen, fehlende Annahmen oder Rechenfehler erkennen.

Dies ist besonders wertvoll in Bereichen wie Analytik, Planung und Fehlerbehebung. Statt einer einzigen undurchsichtigen Ausgabe erhalten Sie eine Erzählung, die überprüft, korrigiert oder als Dokumentation wiederverwendet werden kann.

🔍 Funktioniert mit lokalen Modellen

Chain-of-Thought funktioniert auf jedem Modell mit 7B+ Parametern. Testen Sie es lokal mit Ollama oder LM Studio.

Wann Chain-of-Thought hilft (und wann nicht)

Chain-of-Thought Prompting hilft am meisten bei Aufgaben, die sich natürlicherweise in klare Schritte unterteilen lassen, ist aber nicht für jeden Prompt notwendig. Es glänzt überall dort, wo der Weg genauso wichtig ist wie das Ziel.

Chain-of-Thought-Reasoning ist es, was einen Tool-Calling-Agenten über mehrstufige Aufgaben hinweg zuverlässig macht. Für einen lokalen Agenten-Stack, der einem CoT-fähigen Modell den Zugriff auf Datenbanken und Dateien gibt, siehe Lokale KI-Agenten mit MCP.

Gute Anwendungsfälle sind:

  • Mathematische und quantitative Denkaufgaben.
  • Mehrstufige logische Rätsel oder Entscheidungsanalysen.
  • Ursachenanalyse, Incident Postmortems und Diskussionen über Kompromisse.
  • Planungsaufgaben, bei denen die Abfolge der Aktionen explizit sein muss.

Bei einfacher Klassifizierung, schneller Werbetexterstellung oder kurzen faktischen Antworten führt Chain-of-Thought oft zu unnötiger Ausführlichkeit ohne großen zusätzlichen Nutzen. In sensiblen Bereichen möchten Sie möglicherweise auch das Denken intern behalten und nur die endgültige Antwort für Endbenutzer zeigen.

Beispiel: Ohne und mit Chain of Thought

Der Unterschied wird deutlich, wenn Sie einen direkt-antwortenden Prompt mit einem vergleichen, der explizit Argumentation fordert. Hier ist ein einfaches Entscheidungsbeispiel.

Schlechter Prompt

"Welches Projekt sollten wir nächstes Quartal priorisieren?"

Guter Prompt

"Sie sind ein Produktmanager. Wir haben drei Kandidatenprojekte für nächstes Quartal. Verwenden Sie Chain-of-Thought Argumentation, um zu entscheiden, welches Projekt Priorität hat. 1) Notieren Sie die Entscheidungskriterien, die Sie verwenden werden (z. B. Umsatzauswirkung, Risiko, strategische Ausrichtung). 2) Bewerten Sie jedes Projekt Schritt für Schritt gegen diese Kriterien. 3) Geben Sie eine klare Empfehlung ab und rechtfertigen Sie sie in 3–5 Sätzen. Geben Sie am Ende eine kurze abschließende Antwort mit dem Präfix `Empfehlung:` auf einer separaten Zeile."

In der „guten" Version erklärt das Modell, wie es seine Kriterien ausgewählt hat, wie jedes Projekt bewertet wird, und gibt dann eine Empfehlung ab, die Sie in Frage stellen oder akzeptieren können.

Wie man effektive Chain-of-Thought Prompts schreibt

Um effektive Chain-of-Thought Prompts zu schreiben, sollten Sie die Struktur der Argumentation und die Struktur der endgültigen Antwort definieren. Vage Anfragen wie „Erkläre mehr" sind weniger zuverlässig als konkrete Anweisungen.

Ein praktisches Muster ist:

  • Sagen Sie dem Modell seine Rolle (z. B. „Sie sind ein leitender Datenanalyst").
  • Geben Sie an, dass es Schritt für Schritt denken oder Chain-of-Thought verwenden soll.
  • Definieren Sie die Argumentationsabschnitte, die Sie erwarten (z. B. Annahmen, Berechnungen, Vergleich, Schlussfolgerung).
  • Fordern Sie am Ende eine kurze, klar gekennzeichnete abschließende Antwort an, damit Sie sie schnell nutzen können.

Dies trennt die detaillierte Argumentation von der prägnanten Ausgabe, was hilfreiche ist, wenn Sie das Ergebnis in andere Tools oder Berichte integrieren.

Chain-of-Thought Prompting in PromptQuorum

PromptQuorum ist ein Multi-Model-KI-Dispatchingtool, bei dem Sie Chain-of-Thought Prompting konsistent über verschiedene Modelle hinweg anwenden können. Sie schreiben einen strukturierten Chain-of-Thought Prompt und versenden ihn parallel an mehrere Anbieter.

In PromptQuorum können Sie:

  • Chain-of-Thought Anweisungen mit denk-fokussierten Frameworks wie TRACE oder APE kombinieren, damit Denkschritte explizit gekennzeichnet sind.
  • Vergleichen Sie, wie verschiedene Modelle die gleiche Denkaufgabe handhaben, und inspizieren Sie ihre Schritt-für-Schritt-Nachverfolgungen nebeneinander.
  • Speichern Sie Chain-of-Thought Prompts als Vorlagen für wiederkehrende Analysen, Incident Reviews oder strategische Entscheidungen.

Dies verwandelt Chain-of-Thought Prompting von einem einmaligen Trick in einen wiederholbaren Teil Ihres Entscheidungsprozesses.

Wie Sie Chain-of-Thought (CoT) Prompting verwenden

  1. 1
    Fordern Sie bei Logik-, Denk- oder Debugging-Aufgaben das Modell auf, „Schritt für Schritt zu denken", bevor Sie antworten. Statt „Was ist der Bug?" fragen Sie „Verfolgen Sie die Ausführung Schritt für Schritt, dann identifizieren Sie den Bug."
  2. 2
    Geben Sie ein durchgearbeitetes Beispiel mit schrittweiser Argumentation. Beschreiben Sie es nicht nur – zeigen Sie dem Modell, wie schrittweises Denken aussieht. Beispiel: „Zuerst überprüfe ich die Funktionssignatur... Dann verfolge ich den ersten Aufruf mit Eingabe X..."
  3. 3
    Verwenden Sie explizite Prompts wie „Denken wir Schritt für Schritt" oder „Zuerst... Dann..." Diese lösen bewussteren Denkprozesse im Modell aus.
  4. 4
    Bitten Sie bei komplexen Problemen das Modell, Zwischenausgaben nachzuverfolgen. Beispiel: „Verfolgen Sie die Ausführung dieser Funktion für Eingabe 5. Zeigen Sie den Wert jeder Variablen nach jeder Zeile."
  5. 5
    Kombinieren Sie CoT mit überprüfbaren Ausgaben: Bitten Sie das Modell, seine Arbeit zu zeigen, damit Sie sie überprüfen können. „Erklären Sie Ihr Denken bei jedem Schritt. Wenn Sie einen Fehler machen, sollte ich ihn aus Ihrer gezeigten Arbeit erkennen können."

Mathe-Beispiel: Umsatzberechnung

Ohne CoT gibt das Modell möglicherweise nur eine abschließende Antwort. Mit CoT zeigt das Modell Berechnungen schrittweise.

Ohne CoT:

„Ein Kunde kauft 50 Einheiten zu 15 € je Stück und erhält einen 10 %-Rabatt. Wie viel zahlt der Kunde?"

Modell: „675 €"

Mit CoT:

„Ein Kunde kauft 50 Einheiten zu 15 € je Stück und erhält einen 10 %-Rabatt. Arbeite die einzelnen Schritte durch: 1) Berechne die Zwischensumme. 2) Berechne den Rabattbetrag. 3) Ziehe den Rabatt von der Zwischensumme ab, um den Endpreis zu erhalten."

Modell: „1) Zwischensumme = 50 × 15 € = 750 €. 2) Rabatt = 10 % von 750 € = 75 €. 3) Endpreis = 750 € − 75 € = 675 €."

Beide geben die gleiche Antwort, aber die CoT-Version zeigt die Mathematik und ermöglicht es, Fehler zu erkennen (z. B. wenn jemand 10 % von 750 € falsch berechnet).

CoT vs. integrierte Reasoning-Modelle (2026)

2026 haben die Frontier-Modelle – Claude Opus 4.7, OpenAI o3, Gemini Deep Think – integrierte Denkmodi, die Chain-of-Thought automatisch internalisieren. Sie müssen keine „denk Schritt für Schritt"-Anweisungen auf diesen Modellen hinzufügen.

Wann Prompt-Level CoT verwenden: Nicht-Thinking-Modelle (Claude Haiku 4.5, GPT-4o mini, Gemini Flash, Llama 4), lokale LLMs oder wenn Sie die zusätzlichen Kosten für Thinking-Token-Budgets vermeiden möchten.

Wann integrierte Thinking-Modi verwenden: Maximale Genauigkeit auf Frontier-Modellen, mathematiklastige Aufgaben, komplexe Analysen. Diese Modelle berechnen Thinking-Token separat (üblicherweise höherer Satz als Output-Token).

AnsatzAm besten fürKostenTransparenzModelle
Prompt-Level CoT („denk Schritt für Schritt")Kleine Modelle, lokale LLMs, kostensensitive AufgabenErhöht Output-TokenVollständig: sichtbare Schritte in der AusgabeHaiku, Flash, LLaMA, Qwen
Claude Extended Thinking (Opus 4.7, Sonnet 4.6)Komplexe Analysen, maximale GenauigkeitSeparates Thinking-Token-Budget (Input-Satz)Inspector-Trace via APIClaude Opus 4.7, Claude Sonnet 4.6
OpenAI o3Schwierigste Probleme (Mathe, Coding, Wettbewerbe)Thinking-Token-Budget (höherer Tier)Verstecktes Denken, sichtbare AusgabeOpenAI o3
Gemini Deep ThinkGoogle Cloud Integration, Gemini-ÖkosystemThinking-Token separat von Ausgabethinking_level Parameter (LOW, MEDIUM, HIGH)Gemini 3.1 Pro
DeepSeek R1Open-Weights-Option, On-Device ReasoningSichtbares Denken in Ausgabetext gestreamtVollständig: inline CoT in AusgabeDeepSeek R1

💡 Tipp

Verwenden Sie für kostenbewusste Systeme Prompt-Level CoT auf kleineren Modellen. Für maximale Genauigkeit bei schwierigen Problemen nutzen Sie o3 oder Claude Extended Thinking und lassen das Modell das Denken intern handhaben.

Chain-of-Thought Varianten und Erweiterungen

Über das grundlegende „denk Schritt für Schritt"-Muster hinaus haben Forscher mehrere CoT-Varianten entwickelt, die jeweils für verschiedene Problemtypen optimiert sind.

  • Zero-shot CoT: Fragen Sie „Denken wir Schritt für Schritt" ohne Beispiele. Funktioniert auf den meisten Modellen und ist am einfachsten zu implementieren. Boost: ~10–20 % Genauigkeitsverbesserung bei Denkaufgaben.
  • Few-shot CoT: Zeigen Sie 2–5 durchgearbeitete Beispiele mit expliziter Argumentation, dann fragen Sie das Modell, das gleiche Muster auf ein neues Problem anzuwenden. Zuverlässiger als Zero-shot, erfordert aber manuelle Beispielenerstellung. Boost: ~20–40 % Genauigkeit.
  • Self-Consistency (Wang et al., 2023): Generieren Sie mehrere unabhängige CoT-Argumentationspfade, dann nehmen Sie eine Mehrheitsentscheidung bei der abschließenden Antwort. Deutlich robuster gegen Fehler. Boost: ~30–50 % bei schwierigen Aufgaben.
  • Tree of Thought (ToT): Anstelle einer linearen Kette erkunden Sie mehrere Argumentationszweige und reduzieren schwache aus. Verwenden Sie, wenn es viele mögliche Lösungswege gibt (Planung, Spielaufgaben, kreative Aufgaben).
  • ReAct (Reasoning + Acting): Verflechten Sie Argumentation mit externen Aktionen – rufen Sie APIs auf, durchsuchen Datenbanken oder führen Code aus – und integrieren Sie die Ergebnisse zurück in den nächsten Argumentationsschritt. Am besten für reale Aufgaben, die aktuelle Daten oder Verifikation benötigen.

Modellvergleich: Wie Modelle CoT Prompting handhaben (2026)

ModellPrompt-Level CoTIntegriertes ThinkingBester AnwendungsfallKosten (ca.)
Claude Opus 4.7Nicht nötigExtended Thinking (Trace inspizierbar via API)Maximale Genauigkeit bei AnalysenHöher (Input + Output + Thinking-Token)
Claude Sonnet 4.6Nicht nötigExtended ThinkingAusgeglichenes Kosten/Genauigkeit-VerhältnisMittel
Claude Haiku 4.5EmpfohlenKeineSchnelle, kostengünstige ArgumentationNiedrig
OpenAI o3Nicht nötigEffort-Levels (low, medium, high, xhigh)Probleme auf WettbewerbsniveauSehr hoch (Thinking-Token Tier)
GPT-4o miniEmpfohlenKeineBudgetbewusste BereitstellungSehr niedrig
Gemini 3.1 ProFunktioniertDeep Think (thinking_level Param)Google Cloud IntegrationMittel-Hoch
Gemini FlashEmpfohlenKeineSchnelle AntwortenNiedrig
DeepSeek R1Nicht nötigInline Reasoning in AusgabeOpen-Weights, On-DeviceKostenlos (Open Source)
Llama 4EmpfohlenKeineLokale Bereitstellung, DatenschutzSelf-Hosted (Compute-abhängig)

Häufig gestellte Fragen

Funktioniert Chain-of-Thought auf allen Modellen?

Chain-of-Thought funktioniert auf den meisten Modellen mit 7B+ Parametern, aber der Nutzen variiert. Es ist am wirksamsten auf mittleren und kleineren Modellen (Haiku, Flash, Llama 4). Bei Frontier-Modellen (Claude Opus 4.7, o3) sind integrierte Thinking-Modi oft effizienter als Prompt-Level CoT.

Erhöht Chain-of-Thought die Kosten?

Ja, Prompt-Level CoT erhöht die Anzahl der Output-Token (da das Modell die Argumentation vor der abschließenden Antwort schreibt). Integrierte Thinking-Modi (Claude Extended Thinking, OpenAI o3) nutzen separate Thinking-Token-Budgets, die unterschiedliche Abrechnungssätze haben können. Testen Sie beide in Ihrem Anwendungsfall, um den Kompromiss zwischen Kosten und Genauigkeit zu vergleichen.

Wann sollte ich Few-shot CoT statt Zero-shot verwenden?

Verwenden Sie zunächst Zero-shot CoT – es ist einfacher und funktioniert in den meisten Fällen. Wechseln Sie zu Few-shot (mit 2–5 Beispielen), wenn Zero-shot unzuverlässig ist oder wenn Ihre Domäne spezifische Argumentationsmuster erfordert (z. B. Finanzanalyse mit standardisierter Zeilenstruktur).

Kann ich Chain-of-Thought mit strukturierter Ausgabe (JSON) kombinieren?

Ja. Sie können das Modell auffordern, sein Denken zunächst in Klartext zu zeigen, dann ein JSON-Objekt mit der abschließenden Antwort auszugeben. Kombinieren Sie die Anweisungen: „Denk Schritt für Schritt. Geben Sie dann Ihr Ergebnis als gültiges JSON aus." Dies ist häufig in Produktionssystemen.

Was ist der Unterschied zwischen Chain-of-Thought und Tree-of-Thought?

Chain-of-Thought ist eine lineare Abfolge: Schritt 1 → Schritt 2 → ... → Conclusion. Tree-of-Thought erkundet mehrere Zweige (alternative Argumentationspfade) und reduziert schwächere aus, bevor die Antwort erreicht wird. Tree-of-Thought ist mächtiger, aber teurer (benötigt mehrere Modellaufrufe).

Muss ich bei OpenAI o3 Chain-of-Thought Prompting verwenden?

Nein. OpenAI o3 hat integriertes Thinking, das automatisch aktiviert wird. Sie müssen keine „denk Schritt für Schritt"-Anweisungen hinzufügen. Geben Sie o3 einfach das Problem und stellen Sie das Effort Level (low/medium/high/xhigh) ein, um zu steuern, wie viel Thinking-Budget ausgegeben wird.

Muss ich bei der Verwendung von Sprachmodellen in der EU die DSGVO beachten?

Ja. Lokale LLMs mit Chain-of-Thought ermöglichen Datenresidenz und verringern die Abhängigkeit von Cloudanbietern. Bei der Nutzung von API-basierten Modellen müssen Sie Datenverarbeitungsverträge (Data Processing Agreements) prüfen und sicherstellen, dass Sie keine sensiblen Daten ohne Zustimmung an externe Server senden. BSI-Grundschutz-Kataloge empfehlen On-Premise-Lösungen für hochsensible Daten.

Ist Chain-of-Thought für den deutschen Mittelstand geeignet?

Ja, besonders wenn Sie lokale oder selbstgehostete Modelle einsetzen. Kleine und mittlere Unternehmen profitieren von den Transparenz- und Audit-Vorteilen von Chain-of-Thought (auditable Denkprozesse für Compliance). Mit Tools wie Ollama oder LM Studio können Sie CoT kostengünstig auf Standardhardware einsetzen.

Quellen und weiterführende Literatur

  • Wei, J., Wang, X., Schuurmans, D., et al. (2022). „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
  • Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2022). „Large Language Models are Zero-Shot Reasoners." NeurIPS 2022. arXiv:2205.11916
  • Wang, X., Wei, J., Schuurmans, D., et al. (2023). „Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2203.11171
  • Anthropic. (2024). „Extended Thinking in Claude." Technische Dokumentation zu Claude Opus 4.7 und Sonnet 4.6 Thinking-Fähigkeiten.
  • OpenAI. (2026). „OpenAI o3: Reasoning Models for Competition-Level Problem Solving." OpenAI Dokumentation und Forschungsankündigungen.

Wenden Sie diese Techniken gleichzeitig mit 25+ KI-Modellen in PromptQuorum an.

PromptQuorum kostenlos testen →

← Zurück zu Prompt Engineering

Chain-of-Thought Prompting: Genauigkeit um 40%