Prompt Engineering und RAG lösen unterschiedliche Probleme. Prompt Engineering optimiert den Prompt-Text, den Sie an ein LLM senden (Klarheit, Beispiele, Format). RAG (Retrieval-Augmented Generation) ergänzt ein LLM mit externer Wissensbeschaffung vor der Antwortgenerierung. Die meisten Teams nutzen beide: Prompt Engineering für allgemeine Aufgaben, RAG für wissensintensive Aufgaben. Dieser Leitfaden erklärt, wann Sie jeweils einsetzen, ihre Tradeoffs und wie Sie entscheiden.

Was ist Prompt Engineering?

Prompt Engineering ist die Optimierung des Textes, um bessere LLM-Antworten zu erhalten. Sie ändern nicht das Modell oder fügen externe Daten hinzu. Sie ändern den Prompt selbst: Anweisungsklarheit, Beispiele, Ausgabeformat, Ton, Schritt-für-Schritt-Reasoning. Beispiele: „Antworte im JSON-Format" (Format), „Hier sind 3 Beispiele" (Few-Shot), „Denke Schritt für Schritt" (Reasoning-Struktur). Prompt Engineering funktioniert, weil LLMs auf Phrasing sensibel sind – die gleiche Frage unterschiedlich phrasing erzeugt unterschiedliche Qualität.

Was ist RAG?

RAG (Retrieval-Augmented Generation) ruft relevante Dokumente aus einer externen Wissensdatenbank ab und füttert sie in den LLM-Prompt. Das LLM generiert dann eine Antwort basierend auf Prompt und abgerufenem Kontext. Beispiel: Benutzer fragt „Was ist unsere Rückgaberichtlinie?" → RAG ruft Policy-Dokumente ab → LLM generiert Antwort basierend auf diesen Dokumenten. RAG löst das „Halluzinationsproblem bei Fakten": statt zu raten, referenziert das LLM ein Dokument.

Nebeneinander-Vergleich

Hier ist ein direkter Vergleich:

Aspekt	Prompt Engineering	RAG
Was es tut	Optimiert Prompt-Text	Ruft ab + generiert
Externe Daten erforderlich	Nein	Ja (Wissensdatenbank)
Kosten pro Anfrage	$0,001–0,01	$0,005–0,05
Latenz	~200ms	~1–3s
Halluzinationsrisiko	Hoch (wenn LLM Wissen fehlt)	Niedrig (verankert in Docs)
Erforderliche Infrastruktur	Keine	Vector DB, Embedding-Modell, Abruf
Beste für	Reasoning, Kreativität, allgemeine Fragen	Wissensintensiv, faktengestützt, Proprietäres

Prompt Engineering: Stärken & Schwächen

Stärken: (1) Keine externe Infrastruktur – nur Prompt und LLM. (2) Niedrige Kosten – einzelner API-Aufruf, minimale Tokens. (3) Schnell – ~200ms von Ende zu Ende. (4) Gut für Reasoning – LLMs sind stark in Logik und Kreativität. (5) Flexibel – kann Beispiele, Schritt-für-Schritt-Anweisungen, Ausgabeformat spontan hinzufügen. Schwächen: (1) Halluzination bei Fakten – wenn LLM einen Fakt nicht kennt, erfindet es einen. (2) Knowledge Cutoff – Trainingsdaten gehen nur bis zu einem bestimmten Datum. (3) Begrenzte Kontextfenster – kann nicht Millionen von Dokumenten referenzieren. (4) Keine Personalisierung – kann nicht ohne Umtraining an benutzerspezifische Daten anpassen.

RAG: Stärken & Schwächen

Stärken: (1) Eliminiert Halluzination – Antworten sind in abgerufenen Dokumenten verankert. (2) Echtzeit-Wissen – Abruf kann aktuelle Daten, Finanzberichte, E-Mails abrufen. (3) Personalisierung – kann benutzerspezifische Dokumente abrufen. (4) Compliance – Sie kontrollieren, welche Daten das Modell zugreift. (5) Nachvollziehbarkeit – Sie können zeigen, welche Dokumente zitiert wurden. Schwächen: (1) Abrufqualität zählt – schlechter Abruf → schlechte Antworten. (2) Höhere Kosten – Abruf + Embedding + längere Prompts = 2–5x Kostenerhöhung. (3) Höhere Latenz – fügt 500ms–2s für Abruf hinzu. (4) Infrastruktur-Komplexität – erfordert Vector DB, Embedding-Modell, Abruf-Logik. (5) Kann immer noch halluzinieren – wenn abgerufene Dokumente unvollständig oder widersprüchlich sind.

Kosten & Latenz-Tradeoffs

Kosten: Prompt Engineering hat nur LLM-Token-Kosten ($0,001–0,01 pro Anfrage). RAG fügt hinzu: (1) Embedding API ($0,0001–0,001 pro 1K Tokens), (2) Vector DB Speicherung ($0,01–0,10 pro Abfrage), (3) Längere Prompts (mehr Tokens im Kontextfenster). Gesamt-RAG-Kosten: $0,005–0,05 pro Anfrage (2–5x mehr). Für 1M Anfragen/Monat: PE kostet $1.000–10.000. RAG kostet $5.000–50.000. Latenz: PE ist ~200ms (einzelner LLM-Aufruf). RAG ist ~1–3s: (1) Abfrage-Embedding: 100–300ms, (2) Vector DB Suche: 10–100ms, (3) Dokument-Abruf: 100–500ms, (4) LLM-Generierung: 500–2000ms. Tradeoff: RAG ist langsamer, aber genauer bei Wissensfragen.

Entscheidungsrahmen

Fragen Sie 3 Fragen: 1. Hat das LLM das Wissen bereits? Wenn die Aufgabe allgemeines Reasoning ist (Mathe, Logik, kreatives Schreiben, Programmierung), kennt das LLM wahrscheinlich genug. Nutzen Sie Prompt Engineering. Wenn die Aufgabe erfordert: Unternehmensdokumente, Echtzeit-Daten, Domänenwissen, Proprietäres – hat das LLM es nicht. Nutzen Sie RAG. 2. Wie ist Ihre Kosten-/Latenz-Toleranz? Wenn Sie <500ms brauchen und minimale Kosten (z. B. hochvolumiges Public API), nutzen Sie Prompt Engineering. Wenn Sie 1–3s und 2–5x Kostenerhöhung tolerieren können, nutzen Sie RAG. 3. Wie wichtig ist Genauigkeit bei Fakten? Wenn Halluzination inakzeptabel ist (rechtlich, finanziell, medizinisch), nutzen Sie RAG. Wenn etwas Halluzination tolerierbar ist (Brainstorming, kreatives Schreiben), nutzen Sie Prompt Engineering. Entscheidungsbaum: - Wissensfrage + Genauigkeit kritisch? → RAG - Allgemeines Reasoning? → Prompt Engineering - Beide brauchen? → RAG + Prompt Engineering (Kontext abrufen, dann optimieren, wie es präsentiert wird)

Häufige Fehler

RAG für Aufgaben nutzen, wo Prompt Engineering reicht – fügt unnötige Kosten und Latenz hinzu. Beispiel: „Was ist die Hauptstadt von Frankreich?" zu GPT-4o fragen braucht nicht RAG.
Prompt Engineering für Wissensfragen nutzen – führt zu Halluzination. Beispiel: ein LLM fragen, Ihre Unternehmensrichtlinien zu zitieren, ohne sie via RAG bereitzustellen.
RAG bauen ohne in Abrufqualität zu investieren – ein Abrufsystem ist nur so gut wie sein Indexieren und Ranking. Schlechter Abruf → schlechte Antworten.
Denken, RAG eliminiert Halluzination völlig – RAG reduziert Halluzination, eliminiert sie aber nicht. Wenn Abruf unvollständige oder widersprüchliche Dokumente findet, kann das LLM immer noch Fehler machen.
Nicht End-zu-End-Latenz messen – RAG-Latenz inkludiert Abruf + Embedding + LLM. Gesamt-Latenz zählt für UX, nicht nur LLM-Antwortzeit.
RAG ohne Fallback nutzen – wenn Abruf fehlschlägt oder nichts findet, erhält LLM minimalen Kontext. Haben Sie einen Fallback-Plan (Standardantwort, mit breiterer Suche erneut fragen).

Können Sie diese kombinieren?

Ja – und Sie sollten. Der optimale Ansatz für wissensintensive Anwendungen ist: (1) RAG (relevante Dokumente abrufen), (2) Prompt Engineering (optimieren, wie Kontext dem LLM präsentiert wird). Beispiel: Support-Docs abrufen → Prompt Engineering des Kontext-Formats → LLM generiert hilfreiche Antwort. Das kombiniert RAGs Genauigkeit mit Prompt Engineerings Klarheit. Die meisten Produktionssysteme nutzen beide.

Weiterführende Ressourcen

FAQ

Was ist Prompt Engineering?

Prompt Engineering ist die Optimierung des Textes, den Sie an ein LLM senden. Dazu gehören Anweisungen, Beispiele, Ausgabeformat. Keine externen Daten erforderlich.

Was ist RAG?

RAG ruft relevante Dokumente aus einer Wissensdatenbank ab, füttert sie dann das LLM. Das LLM generiert eine Antwort, die in diesen Dokumenten verankert ist.

Wann sollte ich Prompt Engineering nutzen?

Für Reasoning, Kreativität und allgemeines Wissen, das das LLM bereits hat. Schnell, kostengünstig, keine Infrastruktur.

Wann sollte ich RAG nutzen?

Für wissensintensive Aufgaben: Unternehmensdokumente, Echtzeit-Daten, Domänenwissen. Essentiell, wenn Halluzination inakzeptabel ist.

Was ist der Kostenunterschied?

PE: $0,001–0,01 pro Anfrage. RAG: $0,005–0,05 pro Anfrage (2–5x höher wegen Abruf, Embedding, längere Prompts).

Welches ist schneller?

PE: ~200ms. RAG: ~1–3s (Abruf-Lookup, Embedding, Dokument-Abruf, LLM-Generierung).

Kann ich beide zusammen nutzen?

Ja. Kontext mit RAG abrufen, dann Prompt Engineering nutzen, um zu optimieren, wie dieser Kontext präsentiert wird. Mächtigster Ansatz.

Welches ist genauer?

RAG genauer für Fakten (verankert in Dokumenten). PE reicht für Reasoning und Kreativität.

Was, wenn RAG-Abruf fehlschlägt?

Wenn Wissensdatenbank keine relevanten Dokumente hat, bekommt LLM minimalen Kontext und kann halluzinieren. RAG-Qualität hängt von Abruf-Qualität ab.

Sollte ich Fine-Tuning statt dessen nutzen?

Fine-Tuning lehrt Stil-/Format-Änderungen. Für Wissen ist RAG billiger und schneller. RAG für Fakten, Fine-Tune für Verhalten.

Was ist die DSGVO-Compliance für RAG?

RAG muss DSGVO Art. 28 einhalten. Sie kontrollieren, welche Daten in die Wissensdatenbank gehen. Lokale RAG erfüllt Datenspeicher-Pflichten. Verifizieren Sie Datenfluss mit Ihrem Anbieter.

Prompt Engineering vs RAG: Wann welches nutzen

Was ist Prompt Engineering?

Was ist RAG?

Nebeneinander-Vergleich

Prompt Engineering: Stärken & Schwächen

RAG: Stärken & Schwächen

Kosten & Latenz-Tradeoffs

Entscheidungsrahmen

Häufige Fehler

Können Sie diese kombinieren?

Weiterführende Ressourcen

FAQ

Was ist Prompt Engineering?

Was ist RAG?

Wann sollte ich Prompt Engineering nutzen?

Wann sollte ich RAG nutzen?

Was ist der Kostenunterschied?

Welches ist schneller?

Kann ich beide zusammen nutzen?

Welches ist genauer?

Was, wenn RAG-Abruf fehlschlägt?

Sollte ich Fine-Tuning statt dessen nutzen?

Was ist die DSGVO-Compliance für RAG?

Quellen