Prompt Engineering und Fine-Tuning sind zwei grundverschiedene Ansätze zur Verbesserung von Modellausgaben. Prompt Engineering ist kostenlos, sofort und rückgängig machbar. Fine-Tuning erfordert erhebliche Investitionen, dauert längere Zeit und ist schwer rückgängig zu machen. Dieser Leitfaden zeigt, wann jeder Ansatz gewinnt.

Schnelle Fakten

1
Erfolgsquote von Prompt Engineering: 80-90 % der realen Anwendungsfälle (Kundensupport, Zusammenfassung, Klassifizierung, Datenextraktion).
2
Kosten pro 1M Token (GPT-4o): Prompt Engineering 25 €, Fine-Tuned Inferenz 50-100 €.
3
Datenanforderung für Fine-Tuning: mindestens 100 Beispiele, idealerweise 500+ für stabile Ergebnisse.
4
Zeit bis Ergebnis: Prompt Engineering 2 Stunden (10 Iterationen), Fine-Tuning 7 Tage (einschließlich Datenerfassung).
5
Modellverfügbarkeit: Prompt Engineering funktioniert auf GPT-4o, Claude, Gemini, Llama, lokalen Modellen. Fine-Tuning variiert je nach Anbieter.
6
Rückgängig machbar: Prompt ändern = 0 €. Wechsel von Fine-Tuned zu Basismodell = gesamtes System umschreiben.

Warum diese Entscheidung wichtig ist

📍 In One Sentence

Prompt Engineering ist Ihre erste Wahl (kostenlos, sofort); Fine-Tuning ist Ihr Notfalluebegriff, wenn Prompting fehlschlägt (teuer, dauerhaft).

💬 In Plain Terms

Eine bessere Anweisung an ein KI-Modell kostet nichts und dauert Minuten. Das Modell zu trainieren kostet Hunderte oder Tausende Euro und dauert Tage. Versuchen Sie zuerst die günstige Option.

Sie haben zwei Wege, um KI-Ausgaben zu verbessern: ändern Sie, wie Sie fragen (Prompt Engineering), oder ändern Sie das KI-Modell selbst (Fine-Tuning). Die falsche Wahl kostet Zeit und Geld. Dieser Leitfaden zeigt, welchen Weg Sie gehen sollten.

Was ist Prompt Engineering?

Prompt Engineering bedeutet, klare, detaillierte Anweisungen an ein KI-Modell zu schreiben. Statt „Fassen Sie dies zusammen" schreiben Sie: „Fassen Sie den folgenden Text in 2-3 Sätzen zusammen. Konzentrieren Sie sich auf die Hauptentscheidung und wer sie traf. Vermeiden Sie Fachjargon."

Jeder Prompt ist ein Experiment. Sie versuchen es, sehen das Ergebnis, passen die Formulierung an und versuchen es erneut. Prompt Engineering ist kostenlos, weil Sie das Modell nicht trainieren—Sie sprechen nur besser mit ihm.

Kostenlos: Keine Trainingskosten, nur Inferenzkosten (Modellnutzung)
Sofort: Dauert Minuten bis Stunden zum Verfeinern, nicht Tage oder Wochen
Reversibel: Schlechter Prompt? Löschen Sie ihn einfach und versuchen Sie einen neuen
Testbar: Sie können A/B-Tests mit mehreren Versionen schnell durchführen
Portabel: Derselbe Prompt funktioniert oft auf verschiedenen Modellen
Modellunabhängig: Techniken funktionieren konsistent auf proprietären und Open-Source-Modellen

Was ist Fine-Tuning?

Fine-Tuning bedeutet, das Modell mit Ihren eigenen Daten umzuschulen. Sie stellen Hunderte oder Tausende von Beispielen mit Ein- und Ausgaben bereit, und das Modell lernt von ihnen. Die Modellgewichte ändern sich dauerhaft.

Fine-Tuning ist notwendig nur, wenn Prompt Engineering bei systematischen Problemen fehlschlägt, die 10+ Prozent der Fälle beeinflussen. Häufige Gründe: domänenspezifische Terminologie, sehr strikte Ausgabeformatierung oder spezialisierte Reasoning-Muster, die das Basismodell nie gesehen hat.

Teuer: Erfordert bedeutende Investition pro Trainingslauf
Langsam: Dauert beträchtliche Zeit zu vervollständigen
Dauerhaft: Ändert die Modellgewichte—sehr schwer rückgängig zu machen
Datenintensiv: Erfordert Hunderte oder Tausende beschriftete Beispiele
Teure Inferenz: Das Modell nutzen kostet auch mehr
Versionsbindung: Jede Modellversion erfordert möglicherweise separates Fine-Tuning

🔍 Fine-Tuning ist nicht RAG

Retrieval-Augmented Generation (RAG) und Fine-Tuning lösen unterschiedliche Probleme. RAG fügt relevanten Kontext in den Prompt ein—es ist eine Prompt-Engineering-Technik. Fine-Tuning trainiert das Modell um. Verwenden Sie RAG zuerst. Fine-tunen Sie nur, wenn RAG und Prompt Engineering beide fehlschlagen.

Nebeneinander-Vergleich

Faktor	Prompt Engineering	Fine-Tuning
Kosten	0 € (nur Inferenz)	500-5000+ € pro Lauf
Geschwindigkeit	Minuten bis Stunden	Tage bis Wochen
Reversibilität	Löschen und neu beginnen	Dauerhafte Änderungen
Erforderliche Daten	3-10 Beispiele zum Testen	100-10000+ beschriftete Beispiele
Erfordertes Wissen	Jeder kann es tun	Erfordert ML-Kenntnisse
Modellportabilität	Funktioniert auf GPT, Claude, lokalen Modellen	Gebunden an ein Modell/eine Version
Erfolgsquote	Löst 80-90 % der Fälle	Löst restliche 10-20 %
Wartung	Prompt anpassen bei Modellupdate	Gesamtes Modell pro Version neu trainieren
Testen	10 Versionen in 1 Stunde testen	10 Versionen in 10 Tagen testen
Inferenzkosten	Standardpreise	Benutzerdefinierte Preise (meist höher)

Entscheidungs-Flowchart: Wann Sie jeden Ansatz verwenden sollten

Folgen Sie diesem Flowchart, um zu entscheiden, ob Sie Prompt Engineering oder Fine-Tuning einsetzen sollten.

1
Beginnen Sie mit einer klaren Problemstellung. Beispiel: „Fassen Sie Kundenreviews in genau 2 Sätzen zusammen."
2
Schreiben Sie 10-20 Beispiel-Prompts und testen Sie diese mit dem Basismodell an 10 Beispielen. Wenn 8/10 erfolgreich sind, stoppen Sie. Sie sind mit Prompt Engineering fertig.
3
Wenn weniger als 8/10 erfolgreich sind, versuchen Sie, den Prompt zu verbessern. Fügen Sie Kontext, Beispiele, Einschränkungen und Ausgabeformat hinzu. Führen Sie einen weiteren Test mit 10 Fällen durch.
4
Nach 3-5 Prompt-Iterationen: Wenn die Erfolgsquote immer noch unter 80 % liegt, erwägen Sie Fine-Tuning.
5
Wenn Fine-Tuning: Sammeln Sie 100-500 beschriftete Beispiele (Ein-/Ausgabepaare). Trainieren Sie ein benutzerdefiniertes Modell. Testen Sie auf einem Hold-Out-Set.
6
Wählen Sie den Ansatz mit dem besten Kosten-zu-Qualitäts-Verhältnis.

🔍 Der 90%-Test

Fragen Sie sich: Muss ich 90 % der Fälle beheben oder nur 10 %? Wenn 90 % der Fälle mit Prompt Engineering funktionieren, stoppen Sie. Wenn 90 % fehlschlagen, haben Sie ein größeres Problem als Fine-Tuning allein lösen kann.

Fünf reale Szenarien

Hier sind fünf realistische Entscheidungen, denen Organisationen gegenüberstehen, und wie Sie jede angehen sollten.

1
Strukturierte Daten aus ungeordneten PDFs extrahieren: Versuchen Sie zuerst Prompt Engineering mit Beispielen. Wenn die Erfolgsquote 85 % übersteigt, stoppen Sie. Wenn sie bei 60 % stagniert, fügen Sie Fine-Tuning auf domänenspezifischen Variationen hinzu.
2
Kundenservice-Tickets in Kategorien klassifizieren: Verwenden Sie Prompt Engineering mit Beispielen jeder Kategorie. Kosten: 0 €. Aufwand: 2 Stunden. Fine-Tuning würde 1000+ € kosten und 1 Woche dauern.
3
Spezialisierte Rechtsklausal generieren: Prompt Engineering schlägt fehl, weil das Basismodell zu generisch ist. Fine-tunen Sie auf 500 historischen Dokumenten im Unternehmens-Stil. Kosten gerechtfertigt: 2000 €.
4
Lange Forschungspapiere in Kernerkenntnisse zusammenfassen: Prompt Engineering funktioniert gut. Chain-of-Thought-Prompting + Beispiele = 92 % Genauigkeit. Kein Fine-Tuning notwendig.
5
Technische Dokumente in verständliches Englisch übersetzen: Prompt Engineering + Few-Shot-Beispiele decken 88 % der Fälle ab. Fine-tunen Sie auf restliche 12 % der Grenzfälle.

Beiden verwenden: Wann und wie Sie kombinieren

Best Practice: Beginnen Sie mit Prompt Engineering. Wenn es ein Limit erreicht (etwa 80-85 % Erfolgsquote), fügen Sie Fine-Tuning oben auf.

Workflow: Verwenden Sie ein Fine-Tuned-Modell innerhalb einer Prompt-Engineering-Schleife. Das Fine-Tuned-Modell bearbeitet spezialisierte Aufgaben, während ein Prompt-Engineer Kontext und Routing-Logik hinzufügt.

Verwenden Sie Prompt Engineering, um Anfragen weiterzuleiten: „Ist dies ein Rechtsdokument, eine medizinische Notiz oder ein Finanzbericht?"
Verwenden Sie Fine-Tuning für spezialisierte Modelle: Ein Fine-Tuned-Rechtmodell, ein Fine-Tuned-Medizinmodell, ein Fine-Tuned-Finanzmodell.
Verwenden Sie Prompt Engineering für Ausgabeformatierung: Auch ein Fine-Tuned-Modell profitiert von klaren Format-Anweisungen.
Kombinieren Sie für Kosten: Fine-tunen Sie 10 % der Grenzfälle, leiten Sie 90 % durch günstigere Prompt Engineering weiter.

🔍 Die Wartungsfalle

Jedes Mal, wenn eine neue Modellversion freigegeben wird, werden Fine-Tuned-Modelle obsolet. Sie müssen sie neu trainieren. Prompt Engineering erfordert nur Anpassungen. Budgetieren Sie für jährliche Fine-Tuning-Retraining-Kosten—sie addieren sich auf.

Kostenstruktur-Vergleich

Anbietertyp	Prompt Engineering Kosten	Fine-Tuning Kosten	Inferenz Kosten
Proprietäre Modelle	Niedrig pro Inferenz	Bedeutende Vorabinvestition	Höher für Fine-Tuned-Modelle
Open-Source Cloud	Niedrig pro Inferenz	Moderate Investition	Variabel je Anbieter
Selbstgehostet lokal	Minimal (Ihre Hardware)	Hardware-Kosten + Zeit	Einmalige Hardware-Investition
Hybrid-Ansatz	Niedrige Anfangskosten	Über die Zeit verteilt	Ausgewogenes Kosten-Nutzen-Verhältnis

🔍 Kostenstruktur

Prompt-Engineering-Kosten sind variabel (pro Inferenz). Fine-Tuning-Kosten sind Front-loaded (Training) plus laufende Inferenz. Das Kosten-Nutzen-Verhältnis begünstigt Prompt Engineering für die meisten Fälle, wobei Fine-Tuning nur Wert hinzufügt, wenn spezialisierte Performance kritisch ist.

Fünf häufige Fehler

❌ Fine-Tuning vor dem Testen von Prompts

Why it hurts: Organisationen springen zu Fine-Tuning, ohne ernsthaft Prompts zu iterieren. Ergebnis: 3000 € für Fine-Tuning ausgegeben, wenn 0 € Prompt Engineering funktioniert hätte.

Fix: Testen Sie Prompt Engineering zuerst. Führen Sie 30-50 Beispiele mit 3-5 Prompt-Variationen aus. Fine-tunen Sie nur, wenn der beste Prompt immer noch 20%+ fehlschlägt.

❌ Training auf kleinen Datensätzen

Why it hurts: Fine-Tuning auf 20 Beispielen pro Klasse. Ergebnis: Überfitting, Modell schlägt bei neuen Beispielen fehl.

Fix: Sammeln Sie mindestens 100 Beispiele pro Kategorie. Idealerweise 500+. Überprüfen Sie, dass Ihre Trainings- und Testverteilungen reale Daten widerspiegeln.

❌ Inferenzkosten vergessen

Why it hurts: Organisationen berechnen Fine-Tuning-Kosten (2000 €), vergessen aber, dass Fine-Tuned-Modelle 2-3x mehr zum Ausführen kosten.

Fix: Berechnen Sie die Gesamtbetriebskosten: Training + (Inferenzkosten pro Anruf × erwartetes Volumen × Zeithorizont).

❌ Modellversionierung ignorieren

Why it hurts: Ein Fine-Tuned-Modell funktioniert großartig, dann wird GPT-4o aktualisiert. Das Fine-Tuned-Modell ist jetzt veraltet und muss neu trainiert werden.

Fix: Budget für jährliches Retraining oder Migration zu neuen Modellen. Dokumentieren Sie, welche Basismodellversion jedes Fine-Tune ist.

❌ Falsches Modell Fine-Tuning

Why it hurts: Fine-Tuning eines zu kleinen Modells für die Aufgabe (z. B. ein 7B-Modell für komplexes Reasoning).

Fix: Starten Sie mit dem größten Modell, das Sie sich leisten können. Fine-tunen Sie zur Kostenoptimierung, nicht zur Behebung eines schwachen Basismodells.

Häufig gestellte Fragen

Welcher Ansatz sollte ich zuerst versuchen?

Beginnen Sie immer mit Prompt Engineering. Es ist kostenlos, sofort und reversibel. Wechseln Sie zu Fine-Tuning nur, wenn Prompt Engineering nach wiederholten Versuchen fehlschlägt.

Wie erhalte ich Trainingsdaten für Fine-Tuning?

Sammeln Sie Ihre eigenen Beispiele, verwenden Sie vorhandene Datensätze oder stellen Sie Annotatoren ein. Datenqualität ist wichtiger als Quantität.

Kann ich ein Fine-Tuned-Modell erneut fine-tunen?

Technisch ja, aber es ist selten notwendig. Üblicherweise fine-tunen Sie einmal auf Ihren besten Daten.

Was ist LoRA Fine-Tuning?

Low-Rank Adaptation ist eine Technik, die nur einen Teil des Modells fine-tuned und damit die Ressourcen- und Kostenanforderungen reduziert.

Sollte ich lokal oder in der Cloud fine-tunen?

Cloud-basiertes Fine-Tuning ist einfacher und schneller. Lokales Fine-Tuning gibt Ihnen Kontrolle über Datenschutz und Infrastruktur.

Wie lange dauert Fine-Tuning?

Fine-Tuning dauert beträchtliche Zeit—Wochen bis Monate je nach Datengröße, Modellgröße und Hardware.

Was, wenn Fine-Tuning nicht hilft?

Sie haben möglicherweise das falsche Basismodell, unzureichende Trainingsdaten oder unrealistische Erwartungen. Versuchen Sie zunächst ein größeres Modell oder mehr Daten.

Kann ich Prompt Engineering und Fine-Tuning kombinieren?

Ja, dies ist Best Practice. Verwenden Sie Fine-Tuning für Kernkompetenz und Prompt Engineering für Flexibilität und Routing-Logik.

DACH-Kontext: Datenschutz und Enterprise-Anforderungen

In Deutschland, Österreich und der Schweiz sind Fine-Tuning und Prompt Engineering unter DSGVO und BSI-Grundschutz-Anforderungen unterschiedlich zu bewerten. Fine-Tuning mit lokalen Modellen (z. B. Ollama, lokale LoRA-Adapter) erfüllt Datenschutzanforderungen besser, da Trainingsdaten nicht an US-amerikanische Cloud-Provider übertragen werden. Prompt Engineering mit privaten APIs (selbstgehostete Modelle) ist ideal für regulierte Branchen wie Finanzdienstleistungen, Medizin und Rechtsberatung.

Prompt Engineering vs Fine-Tuning: Wann prompen, wann trainieren