Jeder AI-API-Aufruf wird in Tokens gemessen und abgerechnet — die Einheit, die sowohl bestimmt, was das Modell verarbeiten kann, als auch wie viel Sie zahlen. Das Verständnis von Tokens ist die Grundlage für effizientes und kostengünstiges Prompt Engineering.

Was ist ein Token?

Ein Token ist die kleinste Texteinheit, die ein KI-Modell verarbeitet — etwa 3–4 Zeichen oder ¾ eines englischen Wortes. Im Englischen zählt „ChatGPT" als 2 Tokens, und „Hallo, wie geht es dir?" sind etwa 5–6 Tokens. Andere Sprachen tokenisieren weniger effizient — derselbe Satz auf Deutsch oder Japanisch kann 20–40 % mehr Tokens verbrauchen. Sie werden für jeden Token in Ihrem Prompt (Input) und für jeden Token berechnet, den das Modell ausgibt. Das Verständnis von Tokens ist grundlegend für was Prompt Engineering ist — die Praxis, Ihre Eingaben so zu strukturieren, dass Sie zuverlässige Ausgaben erhalten.

Modelle „denken" nicht in Wörtern oder Zeichen. Intern konvertieren sie Ihren Text in Token-IDs und verarbeiten diese numerisch. Aus diesem Grund ist Tokenisierung wichtig: Eine einzelne Zeichenänderung kann manchmal die Token-Grenze beeinflussen, und ein schlecht organisierter Prompt mit redundanten Wörtern kann hunderte Tokens verschwenden, ohne die Ausgabequalität zu verbessern.

In einem Satz: Ein Token ist die kleinste Texteinheit, die ein KI-Modell verarbeitet — etwa 3–4 Zeichen oder ¾ eines englischen Wortes — und Sie werden für jeden Token ein und jeden Token aus abgerechnet.

So funktioniert die Token-Zählung in der Praxis

Jedes Element Ihres API-Aufrufs — System-Prompt, Konversationsverlauf, neue Nachricht, Dateien und die eigene Ausgabe des Modells — verbraucht Tokens aus Ihrem Kontingent. Dies ist, warum ein Gespräch, das mit einer kleinen Nachricht begann, nach fünf Hin-und-Her-Zügen plötzlich teuer werden kann. Sie zahlen für alles, akkumuliert. Das Verständnis des Unterschieds zwischen System-Prompt und User-Prompt ist kritisch, da beide bei jedem Aufruf abgerechnet werden.

System-Prompt: Wird einmal pro Nachricht gezählt. Ein 200-Wort-System-Prompt = ~250 Tokens bei jedem API-Aufruf.
Vollständiger Konversationsverlauf: Enthalten bei jeder Anfrage, es sei denn, er wurde explizit zusammengefasst oder gelöscht. Ein 10-Zug-Gespräch mit 500 Tokens pro Zug = 5.000 Tokens erneut im 11. Zug gezählt.
Ihre Input-Nachricht: Wird wie vorhanden gezählt.
Angehängte Dateien oder Bilder: Bilder verbrauchen 100–2.000 Tokens je nach Größe und Auflösung. Große PDFs können tausende verbrauchen.
Modellausgabe: Die generierte Antwort wird vollständig zu Output-Token-Raten gezählt (typischerweise 2–5× höher als Input-Raten).
Durchgearbeitetes Beispiel: Ein 3-Zug-Forschungsgespräch: System-Prompt (300 Tokens) + Benutzer F1 (150 Tokens) + Modell A1 (200 Tokens) + Benutzer F2 (200 Tokens) + Modell A2 (300 Tokens) + Benutzer F3 (100 Tokens) = 1.250 Tokens bisher. Wenn Sie F3 senden, bezahlen Sie für den gesamten Verlauf erneut (1.250 Tokens) plus die Ausgabe von A3. Eine einzelne „kurze" Nachverfolgung kann so viel kosten wie das gesamte vorherige Gespräch.

Wie viel kosten GPT-4o, Claude und Gemini pro Million Tokens im Jahr 2026?

Die Preise unterscheiden sich dramatisch je nach Modellleistung. Alle Zahlen unten sind öffentliche Preise ab März 2026. Beachten Sie, dass Output-Tokens typischerweise 2–5× mehr kosten als Input-Tokens — hier sammeln sich die Kosten am schnellsten an. Die richtige Modellwahl ist der größte Kostenhebel — siehe wie man zwischen GPT-4o, Claude und Gemini wählt für detaillierte Vergleiche.

Preise ab März 2026. Aktuelle Tarife überprüfen: OpenAI Preise · Anthropic Preise · Google Preise

Modell	Input (pro 1M Tokens)	Output (pro 1M Tokens)
OpenAI GPT-4o	$5.00	$15.00
Anthropic Claude Opus 4.7	$3.00	$15.00
Google Gemini 1.5 Pro	$3.50	$10.50
OpenAI GPT-4o mini	$0.15	$0.60
Anthropic Claude 4.5 Haiku	$0.25	$1.25
Google Gemini 1.5 Flash	$0.075	$0.30

Was sind Rate Limits — und warum existieren sie?

Rate Limits sind Grenzen für die Anzahl der Anfragen, die Sie pro Minute (RPM) stellen können, wie viele Tokens Sie pro Minute (TPM) verarbeiten können, oder wie viele Tokens pro Tag (TPD). Anbieter setzen Limits, um Missbrauch zu verhindern, faire Ressourcenzuteilung zwischen Benutzern zu gewährleisten und Preisstufen zu erstellen. Kostenlose Benutzer sehen die strengsten Limits; bezahlte Tarife ermöglichen viel höheren Durchsatz.

Anfragen pro Minute (RPM): Die Anzahl der API-Aufrufe, die Sie in einem 60-Sekunden-Fenster stellen können. Wenn Sie dies überschreiten, werden Anfragen in Warteschlange gestellt oder abgelehnt.
Tokens pro Minute (TPM): Der gesamte Token-Durchsatz. Ein einzelner großer Prompt kann Ihr gesamtes TPM-Kontingent in Sekunden verbrauchen.
Häufige Szenarien, in denen Sie Limits treffen: Automatisierte Pipelines mit schnellen sequenziellen Aufrufen (50+ pro Sekunde), große Batch-Processing-Jobs oder kostenlose Benutzer in Burst-Situationen.
Typische Limits: Kostenlos: 3–15 RPM, 40k–100k TPM. Bezahlter Tarif 1: 500 RPM, 200k–500k TPM. Unternehmensplan: 3.000+ RPM, Millionen TPM.
Workaround-Strategien: Fassen Sie kleine Aufgaben in größere Anfragen zusammen (weniger API-Aufrufe), fügen Sie Verzögerungen zwischen Anfragen hinzu oder aktualisieren Sie auf ein höher gestaffeltes Konto.

Wie kann ich meine LLM-API-Kosten um 30–50× reduzieren?

Getestet in PromptQuorum — 20 identische Research-Summary-Prompts, die auf GPT-4o, Claude Opus 4.7 und Gemini 1.5 Pro mit unterschiedlichen System-Prompt-Längen ausgeführt wurden: Mit einem 500-Token-System-Prompt betrug die durchschnittliche Ausgabe 450 Tokens mit durchschnittlichen Kosten von $0.032 pro Aufruf. Mit denselben Anweisungen in einem gekürzten 200-Token-Prompt betrug die durchschnittliche Ausgabe 460 Tokens zu $0.025 pro Aufruf — eine 18 %ige Kostensenkung bei identischer Ausgabequalität. Dies stimmt überein mit wie man für Geschwindigkeit promptet — Effizienz reduziert sowohl Latenz als auch Kosten.

Jedes unnötige Token in Ihrem Prompt verschwendet Geld — und die Kosten summieren sich schneller, da Ihr gesamter Prompt bei jedem API-Aufruf in einem Gespräch erneut enthalten ist. Das Kürzen eines 500-Token-System-Prompts auf 300 Tokens spart $0.001 pro Aufruf, aber bei 1.000 Aufrufen pro Tag sind das $1/Tag oder $365/Jahr.

Kontext aggressiv trimmen: Wiederholen Sie nicht, was das Modell bereits weiß. Anstatt „Der Benutzer hat X gefragt. Ich habe ihm Y erzählt. Jetzt fragt er Z" einfach Z einfügen.
Verwenden Sie explizite Längenbeschränkungen: „Antwort in 3 Stichpunkten" oder „Maximum 100 Wörter" erzwingt Kürze und verhindert ausführliche Ausgaben (die mehr kosten).
Vermeiden Sie Polsterung in System-Prompts: Jedes Füllwort kostet Geld. „Sie sind ein hilfreicher KI-Assistent, der Benutzern hilft" sind 10 Tokens. „Sie sind ein hilfreicher KI-Assistent" sind 6 Tokens. Beide vermitteln dieselbe Bedeutung.
Beispiel: Aufgeblähter vs. gekürzter System-Prompt:
Schlechter Prompt „Sie sind ein hilfreicher KI-Assistent mit umfangreichem Wissen über viele Bereiche. Sie helfen Benutzern, indem Sie detaillierte, umfassende Antworten auf ihre Fragen geben. Seien Sie gründlich und erklären Sie Ihr Denken Schritt für Schritt. Vermeiden Sie, prägnant zu sein — Benutzer schätzen gründliche Erklärungen."
Guter Prompt „Sie sind ein hilfreicher KI-Assistent. Geben Sie genaue, detaillierte Antworten. Erklären Sie Ihr Denken."
Token-Differenz: Schlecht = 55 Tokens, Gut = 13 Tokens. Bei 100 Aufrufen pro Tag: 42 × 100 × 30 Tage × ($0.005 / 1M Input-Tokens) ≈ $0.63/Monat gespart durch nur einen gekürzten Prompt.

Wie man LLM-API-Kosten in 5 Schritten senkt

1
Ordnen Sie das Modell der Task-Komplexität zu: Verwenden Sie GPT-4o mini oder Claude 4.5 Haiku für einfache Klassifizierung und Q&A — 33× günstiger als Frontier-Modelle
2
Fassen Sie den Konversationsverlauf alle 5 Züge zusammen: Verhindert, dass die gesamte Historie bei jedem Aufruf neu abgerechnet wird (eine Technik, die sich an Chain-of-Thought-Prompting anlehnt — strukturieren Sie Ihr Denken von vorne herein)
3
Begrenzen Sie die Ausgabelänge explizit: „Antwort in 3 Stichpunkten" oder „Maximal 100 Wörter" verhindert ausführliche, token-schwere Antworten
4
Kürzen Sie System-Prompts auf das Wesentliche: Entfernen Sie Füllphrasen; jedes redundante Wort wird bei jedem API-Aufruf erneut abgerechnet
5
Testen Sie lokale LLMs über Ollama für hochvolumige private Workflows: Null API-Kosten pro Token zum Preis der Frontier-Modell-Leistung

Das richtige Modell für die richtige Aufgabe wählen

Nicht jede Aufgabe erfordert OpenAI GPT-4o oder Anthropic Claude Opus. Einfache Klassifizierung, faktische Q&A und viele automatisierte Aufgaben funktionieren perfekt auf günstigeren Modellen — und der Kostenunterschied ist dramatisch.

Aufgabentyp	Empfohlenes Modell	Kosten vs GPT-4o
Einfache Klassifizierung / Ja-Nein	GPT-4o mini, Claude Haiku 4.5 oder Gemini Flash	33× günstiger
Kurze faktische Q&A	GPT-4o mini oder Claude Haiku 4.5	10–33× günstiger
Komplexe Analyse oder Code	GPT-4o oder Claude Opus 4.7	Basis
Langformatige kreative Schrift	Claude Opus 4.7 oder GPT-4o	Basis
Hochvolumige private Workflows	Lokales Modell über Ollama	Null API-Kosten

Was sind die Trade-offs zwischen lokalen LLMs (Ollama) und Cloud-APIs?

Lokale Modelle über Ollama oder LM Studio haben null API-Kosten pro Token — Sie zahlen nur für die Hardware (VRAM und Elektrizität). Dies macht sie ideal für hochvolumige Workflows, datenschutzempfindliche Anwendungen und kostenkritische Pipelines. Die Trade-offs sind Leistung (lokale Modelle hinken Frontier-Modellen hinterher) und Latenz (das Ausführen auf Consumer-VRAM ist langsamer). Das Verständnis von Kontextfenstern ist essentiell bei der Planung lokaler Bereitstellungen — Ihr VRAM begrenzt die Kontextfenstergröße, die Sie unterstützen können.

Hardware-Kosten: Ollama-Modelle wie LLaMA 3.1 7B benötigen ~8GB VRAM, 13B-Modelle benötigen ~16GB, 70B-Modelle benötigen 40GB+. GPU-Speicher ist der limitierende Faktor.
Leistungs-Trade-off: Lokale Modelle sind hervorragend bei Klassifizierung, Zusammenfassung und repetitiven Aufgaben. Sie haben Schwierigkeiten mit mehrstufigem Denken, Code-Generierung und kreativem Schreiben im Vergleich zu GPT-4o oder Claude Opus 4.7.
Latenz-Trade-off: Cloud-Modelle antworten in 500ms–2s. Lokale Modelle auf Consumer-Hardware: 2–10s je nach Modellgröße und Systemspezifikationen.
Wann lokale verwenden: Hochvolumige Automation (1.000+ Aufrufe/Tag), GDPR-empfindliche Daten (EU-Benutzer, die personenbezogene Daten unter GDPR verarbeiten, profitieren von der lokalen Verarbeitung ohne externe API-Aufrufe), oder kostenkritische Workflows, wo die Qualität „gut genug" ist.
Wann Cloud verwenden: Latenzempfindliche Anwendungen, Aufgaben, die Denken erfordern, oder einmalige Analysen, wo API-Kosten vernachlässigbar sind.

Wie PromptQuorum Ihnen hilft, Token-Kosten zu verwalten

PromptQuorum verwendet zwei LLMs: ein Backend-LLM und ein Frontend-LLM (Ihr ausgewähltes Modell, das Ihre Prompt-Frage beantwortet). Das Backend-LLM optimiert Ihren Prompt und führt Quorum-Konsensusanalyse über mehrere Frontend-Modelle durch. Anders als Single-Model-Chat-Schnittstellen macht PromptQuorum die Token-Nutzung sichtbar und umsetzbar.

Backend-LLM-Tokens sind immer sichtbar. Frontend-Token-Sichtbarkeit hängt davon ab, wie Sie auf das Modell zugreifen:

- Öffentliche Schnittstellen (Copilot, öffentlicher Claude-Web-Chat): Frontend-Tokens NICHT sichtbar — nur Backend-Tokens zeigen.

- Lokale Modelle (LM Studio, Ollama): Frontend-Tokens SIND sichtbar — läuft auf Ihrer Hardware, PromptQuorum sieht Token-Nutzung direkt.

- APIs (OpenAI, Anthropic): Es kommt darauf an. Mit direkter API-Integration sind Frontend-Tokens sichtbar. Über Drittanbieter-Endpunkt oder öffentliche Schnittstelle sind Frontend-Tokens NICHT sichtbar.

Getestet in PromptQuorum — 20 identische Research-Summary-Prompts an GPT-4o und GPT-4o mini versendet: Ausgabequalität stimmte bei 17 von 20 Aufgaben überein. Kostenunterschied: $0.003 pro Prompt (GPT-4o) vs $0.00007 pro Prompt (mini) — eine 43× Kostensenkung. Bei den 3 Aufgaben, bei denen GPT-4o überlegen war, ging es um komplexes mehrstufiges Denken über Dokumente.

Token-Kosten-Rezepte — Allgemeine Szenarien

Verwenden Sie diese Vorlagen als Ausgangspunkte zur Kostenoptimierung in spezifischen Workflows.

„Schnelle Suche / Ja-Nein-Aufgabe": Verwenden Sie GPT-4o mini oder Haiku. Minimaler System-Prompt (≤50 Tokens). Kein Konversationsverlauf. Ausgabe auf 1–2 Sätze begrenzen. Kosten pro Aufgabe: ~$0.00001–0.0001.
„Lange Research-Aufgabe (5–10 Züge)": Verwenden Sie Claude Opus 4.7 (hervorragend bei langem Kontext). Nach alle 5 Züge das Gespräch zusammenfassen und Verlauf mit einer Zusammenfassung ersetzen (reduziert Tokens um 70 %). Kosten: ~$0.01–0.05 pro Research-Sitzung.
„Automatisierte Pipeline / Batch-Verarbeitung": Verwenden Sie GPT-4o mini zum Filtern oder Klassifizieren (33× günstiger). Eskalieren Sie nur auf GPT-4o für endgültige Synthese bei Grenzfällen. Batch ähnliche Prompts, um Kontext-Caching zu wiederverwenden, wo die API dies unterstützt.
„Datenschutzsensitiver Workflow": Route zu Ollama oder LM Studio, die lokal ausgeführt werden. Verwalten Sie Kontextfenster: 4k–8k Tokens für 8GB VRAM, 16k–32k für 16GB. Null API-Kosten. Akzeptieren Sie etwas niedrigere Qualität zur Einhaltung.
„Vergleich von Ausgaben über Modelle": Versenden Sie einen gut strukturierten Prompt an GPT-4o, Claude Opus 4.7 und Claude Haiku 4.5 gleichzeitig. Vergleichen Sie Qualität + Kosten. Wählen Sie das billigste, das Ihre Qualitätsanforderungen erfüllt. Ermittlungskosten: ~$0.001. Laufende Kosten: 33–43× Ersparnis.

Häufige Fehler, die Ihre Token-Rechnung in die Höhe treiben

Vermeiden Sie diese token-verschwendenden Muster.

Vollständigen Konversationsverlauf bei jedem Aufruf versenden: Wenn ein Gespräch nach 10 Zügen 5.000 Tokens ist, zahlen Sie beim 11. Zug 5.000 Tokens erneut, obwohl nur 200 Tokens neu sind. Lösung: Alle 5 Züge zusammenfassen oder Prompt-Caching verwenden, falls die API dies unterstützt.
Hochleistungsmodell für einfache Aufgaben verwenden: Verwenden Sie nicht GPT-4o für „das Datum aus dieser E-Mail extrahieren". Verwenden Sie GPT-4o mini oder Haiku. Kostenunterschied: 33× bei dieser Aufgabe allein.
Ausgabelänge nicht beschränken: Ein vager „erzähl mir von X"-Prompt kann 500 Tokens zurückgeben, während „fasse in 50 Wörtern zusammen" 60 Tokens zurückgibt. Sie zahlen 8× mehr für die ausführliche Antwort.
Lange System-Prompts bei jedem Aufruf wiederholen: Wenn Ihr System-Prompt 500 Tokens ist und Sie 100 API-Aufrufe machen, sind das 50.000 verschwendete Tokens, wenn Sie es nicht wiederverwenden oder zwischenspeichern. Verwenden Sie System-Prompt-Vorlagen oder Caching auf Anforderungsebene.
Bild-Tokens vergessen: Ein einzelnes hochauflösendes Bild kann 500–2.000 Tokens verbrauchen, je nach Auflösung. Verkleinern Sie Bilder oder schneiden Sie den relevanten Bereich zu, bevor Sie hochladen.
Manuelle Test-Aufrufe statt Batch-Verarbeitung: Das Testen von 20 Prompt-Variationen kostet 20× die Token-Kosten eines Aufrufs. Verwenden Sie Batch-APIs oder PromptQuorums Multi-Model-Vergleich, um alle Variationen in einem Zug zu testen.
Modelle in der Mitte einer Konversation wechseln: Cloud-APIs (OpenAI, Anthropic) übertragen keinen Konversationskontext zwischen Modellen. Das Neustarten des Gesprächs in einem anderen Modell versendet alle vorherigen Nachrichten erneut. Verpflichten Sie sich zu einem Modell pro Konversation.

Häufig gestellte Fragen

Wie viele Tokens hat ein typischer Artikel oder Bericht?

Ein 1.000-Wort-Artikel ≈ 1.200–1.500 Tokens. Ein 10-Seiten-PDF ≈ 4.000–6.000 Tokens. Ein einzelnes hochauflösendes Bild ≈ 500–2.000 Tokens je nach Auflösung und Inhaltsdichte.

Warum ist meine API-Rechnung höher als erwartet, auch mit kurzen Prompts?

Drei häufige Ursachen: (1) Sie versenden vollständigen Konversationsverlauf bei jedem Aufruf — fassen Sie nach 5 Zügen zusammen. (2) Ihr System-Prompt ist lang — kürzen Sie ihn auf das Wesentliche. (3) Sie verwenden ein Hochleistungsmodell für einfache Aufgaben — wechseln Sie zu GPT-4o mini oder Haiku für Klassifizierung oder kurze Q&A.

Bedeutet ein längerer System-Prompt immer bessere Ausgaben?

Nein. Ein gut gestalteter 100-Token-System-Prompt übertrifft oft einen wortreichen 500-Token-Prompt. Qualität schlägt Quantität. Spezifizität schlägt Weitschweifigkeit.

Kann ich meinen System-Prompt zwischenspeichern, um Kosten zu sparen?

OpenAI und Anthropic bieten beide Prompt-Caching für lange System-Prompts oder wiederholte Präfixe an. OpenAI berechnet 90 % Rabatt auf zwischengespeicherte Tokens; Anthropic berechnet 10 % Rabatt. Überprüfen Sie Ihre API-Dokumentation, um dies zu aktivieren — es erfordert einen bestimmten Header in Ihrer Anfrage.

Haben lokale LLMs wirklich Null-Kosten?

Null API-Kosten pro Token, ja. Aber Hardware kostet Geld: GPU VRAM (8GB = ~$100, 16GB = ~$200), Elektrizität und Ihre Zeit zur Verwaltung des lokalen Setups. Für einmalige Abfragen ist dies unwirtschaftlich. Für 1.000+ Abfragen pro Tag zahlen sich lokale Modelle schnell aus.

Wie schätze ich Kosten, bevor ich einen großen Batch durchführe?

Schätzen Sie: (durchschnittliche Tokens pro Prompt × Anzahl der Prompts) × (Input-Kosten pro 1M + Output-Kosten pro 1M). PromptQuorum macht dies automatisch, bevor Sie einen Batch durchführen — geben Sie Ihren Prompt und das gewünschte Modell ein, und es prognostiziert die Gesamtausgaben.

Ist GPT-4o die Kosten gegen GPT-4o mini wert?

Für die meisten Aufgaben ist GPT-4o mini die bessere Wahl. GPT-4o mini kostet 33× weniger pro Token und bearbeitet Klassifizierung, kurze Q&A, Datenextraktion und routinemäßige Zusammenfassungen mit vergleichbarer Genauigkeit. Reservieren Sie GPT-4o für Aufgaben, die mehrstufiges Denken, Code-Generierung, nuancierte Analyse oder langformatige strukturierte Schrift erfordern — Aufgaben, bei denen Sie den Qualitätsunterschied messen können.

Wie vergleichen sich Claude und GPT-4o Token-Kosten?

Ab März 2026: Claude Opus 4.7 und GPT-4o sind ähnlich bepreist ($3.00/$15.00 vs $5.00/$15.00 pro Million Input/Output Tokens). Claude Opus 4.7 ist 40 % günstiger bei Input; GPT-4o Output-Kosten sind gleich. Für hochvolumige Input-schwere Workflows (große Dokumente, lange System-Prompts) hat Claude einen Kostenvorteil. Für Output-schwere Workflows (lange Essays, langer Code) sind die Kosten äquivalent.

Token, Kosten & Limits: Die Ökonomie des KI-Prompting

Visuelle Zusammenfassung: Token, Kosten & Limits: Die Ökonomie des KI-Prompting