Schnelle Fakten
- 1Erfolgsquote von Prompt Engineering: 80-90 % der realen Anwendungsfälle (Kundensupport, Zusammenfassung, Klassifizierung, Datenextraktion).
- 2Kosten pro 1M Token (GPT-4o): Prompt Engineering 25 €, Fine-Tuned Inferenz 50-100 €.
- 3Datenanforderung für Fine-Tuning: mindestens 100 Beispiele, idealerweise 500+ für stabile Ergebnisse.
- 4Zeit bis Ergebnis: Prompt Engineering 2 Stunden (10 Iterationen), Fine-Tuning 7 Tage (einschließlich Datenerfassung).
- 5Modellverfügbarkeit: Prompt Engineering funktioniert auf GPT-4o, Claude, Gemini, Llama, lokalen Modellen. Fine-Tuning variiert je nach Anbieter.
- 6Rückgängig machbar: Prompt ändern = 0 €. Wechsel von Fine-Tuned zu Basismodell = gesamtes System umschreiben.
Warum diese Entscheidung wichtig ist
📍 In One Sentence
Prompt Engineering ist Ihre erste Wahl (kostenlos, sofort); Fine-Tuning ist Ihr Notfalluebegriff, wenn Prompting fehlschlägt (teuer, dauerhaft).
💬 In Plain Terms
Eine bessere Anweisung an ein KI-Modell kostet nichts und dauert Minuten. Das Modell zu trainieren kostet Hunderte oder Tausende Euro und dauert Tage. Versuchen Sie zuerst die günstige Option.
Sie haben zwei Wege, um KI-Ausgaben zu verbessern: ändern Sie, wie Sie fragen (Prompt Engineering), oder ändern Sie das KI-Modell selbst (Fine-Tuning). Die falsche Wahl kostet Zeit und Geld. Dieser Leitfaden zeigt, welchen Weg Sie gehen sollten.
Was ist Prompt Engineering?
Prompt Engineering bedeutet, klare, detaillierte Anweisungen an ein KI-Modell zu schreiben. Statt „Fassen Sie dies zusammen" schreiben Sie: „Fassen Sie den folgenden Text in 2-3 Sätzen zusammen. Konzentrieren Sie sich auf die Hauptentscheidung und wer sie traf. Vermeiden Sie Fachjargon."
Jeder Prompt ist ein Experiment. Sie versuchen es, sehen das Ergebnis, passen die Formulierung an und versuchen es erneut. Prompt Engineering ist kostenlos, weil Sie das Modell nicht trainieren—Sie sprechen nur besser mit ihm.
- Kostenlos: Keine Trainingskosten, nur Inferenzkosten (Modellnutzung)
- Sofort: Dauert Minuten bis Stunden zum Verfeinern, nicht Tage oder Wochen
- Reversibel: Schlechter Prompt? Löschen Sie ihn einfach und versuchen Sie einen neuen
- Testbar: Sie können A/B-Tests mit mehreren Versionen schnell durchführen
- Portabel: Derselbe Prompt funktioniert oft auf verschiedenen Modellen
- Modellunabhängig: Techniken funktionieren konsistent auf proprietären und Open-Source-Modellen
Was ist Fine-Tuning?
Fine-Tuning bedeutet, das Modell mit Ihren eigenen Daten umzuschulen. Sie stellen Hunderte oder Tausende von Beispielen mit Ein- und Ausgaben bereit, und das Modell lernt von ihnen. Die Modellgewichte ändern sich dauerhaft.
Fine-Tuning ist notwendig nur, wenn Prompt Engineering bei systematischen Problemen fehlschlägt, die 10+ Prozent der Fälle beeinflussen. Häufige Gründe: domänenspezifische Terminologie, sehr strikte Ausgabeformatierung oder spezialisierte Reasoning-Muster, die das Basismodell nie gesehen hat.
- Teuer: Erfordert bedeutende Investition pro Trainingslauf
- Langsam: Dauert beträchtliche Zeit zu vervollständigen
- Dauerhaft: Ändert die Modellgewichte—sehr schwer rückgängig zu machen
- Datenintensiv: Erfordert Hunderte oder Tausende beschriftete Beispiele
- Teure Inferenz: Das Modell nutzen kostet auch mehr
- Versionsbindung: Jede Modellversion erfordert möglicherweise separates Fine-Tuning
🔍 Fine-Tuning ist nicht RAG
Retrieval-Augmented Generation (RAG) und Fine-Tuning lösen unterschiedliche Probleme. RAG fügt relevanten Kontext in den Prompt ein—es ist eine Prompt-Engineering-Technik. Fine-Tuning trainiert das Modell um. Verwenden Sie RAG zuerst. Fine-tunen Sie nur, wenn RAG und Prompt Engineering beide fehlschlagen.
Nebeneinander-Vergleich
| Faktor | Prompt Engineering | Fine-Tuning |
|---|---|---|
| Kosten | 0 € (nur Inferenz) | 500-5000+ € pro Lauf |
| Geschwindigkeit | Minuten bis Stunden | Tage bis Wochen |
| Reversibilität | Löschen und neu beginnen | Dauerhafte Änderungen |
| Erforderliche Daten | 3-10 Beispiele zum Testen | 100-10000+ beschriftete Beispiele |
| Erfordertes Wissen | Jeder kann es tun | Erfordert ML-Kenntnisse |
| Modellportabilität | Funktioniert auf GPT, Claude, lokalen Modellen | Gebunden an ein Modell/eine Version |
| Erfolgsquote | Löst 80-90 % der Fälle | Löst restliche 10-20 % |
| Wartung | Prompt anpassen bei Modellupdate | Gesamtes Modell pro Version neu trainieren |
| Testen | 10 Versionen in 1 Stunde testen | 10 Versionen in 10 Tagen testen |
| Inferenzkosten | Standardpreise | Benutzerdefinierte Preise (meist höher) |
Entscheidungs-Flowchart: Wann Sie jeden Ansatz verwenden sollten
Folgen Sie diesem Flowchart, um zu entscheiden, ob Sie Prompt Engineering oder Fine-Tuning einsetzen sollten.
- 1Beginnen Sie mit einer klaren Problemstellung. Beispiel: „Fassen Sie Kundenreviews in genau 2 Sätzen zusammen."
- 2Schreiben Sie 10-20 Beispiel-Prompts und testen Sie diese mit dem Basismodell an 10 Beispielen. Wenn 8/10 erfolgreich sind, stoppen Sie. Sie sind mit Prompt Engineering fertig.
- 3Wenn weniger als 8/10 erfolgreich sind, versuchen Sie, den Prompt zu verbessern. Fügen Sie Kontext, Beispiele, Einschränkungen und Ausgabeformat hinzu. Führen Sie einen weiteren Test mit 10 Fällen durch.
- 4Nach 3-5 Prompt-Iterationen: Wenn die Erfolgsquote immer noch unter 80 % liegt, erwägen Sie Fine-Tuning.
- 5Wenn Fine-Tuning: Sammeln Sie 100-500 beschriftete Beispiele (Ein-/Ausgabepaare). Trainieren Sie ein benutzerdefiniertes Modell. Testen Sie auf einem Hold-Out-Set.
- 6Wählen Sie den Ansatz mit dem besten Kosten-zu-Qualitäts-Verhältnis.
🔍 Der 90%-Test
Fragen Sie sich: Muss ich 90 % der Fälle beheben oder nur 10 %? Wenn 90 % der Fälle mit Prompt Engineering funktionieren, stoppen Sie. Wenn 90 % fehlschlagen, haben Sie ein größeres Problem als Fine-Tuning allein lösen kann.
Fünf reale Szenarien
Hier sind fünf realistische Entscheidungen, denen Organisationen gegenüberstehen, und wie Sie jede angehen sollten.
- 1Strukturierte Daten aus ungeordneten PDFs extrahieren: Versuchen Sie zuerst Prompt Engineering mit Beispielen. Wenn die Erfolgsquote 85 % übersteigt, stoppen Sie. Wenn sie bei 60 % stagniert, fügen Sie Fine-Tuning auf domänenspezifischen Variationen hinzu.
- 2Kundenservice-Tickets in Kategorien klassifizieren: Verwenden Sie Prompt Engineering mit Beispielen jeder Kategorie. Kosten: 0 €. Aufwand: 2 Stunden. Fine-Tuning würde 1000+ € kosten und 1 Woche dauern.
- 3Spezialisierte Rechtsklausal generieren: Prompt Engineering schlägt fehl, weil das Basismodell zu generisch ist. Fine-tunen Sie auf 500 historischen Dokumenten im Unternehmens-Stil. Kosten gerechtfertigt: 2000 €.
- 4Lange Forschungspapiere in Kernerkenntnisse zusammenfassen: Prompt Engineering funktioniert gut. Chain-of-Thought-Prompting + Beispiele = 92 % Genauigkeit. Kein Fine-Tuning notwendig.
- 5Technische Dokumente in verständliches Englisch übersetzen: Prompt Engineering + Few-Shot-Beispiele decken 88 % der Fälle ab. Fine-tunen Sie auf restliche 12 % der Grenzfälle.
Beiden verwenden: Wann und wie Sie kombinieren
Best Practice: Beginnen Sie mit Prompt Engineering. Wenn es ein Limit erreicht (etwa 80-85 % Erfolgsquote), fügen Sie Fine-Tuning oben auf.
Workflow: Verwenden Sie ein Fine-Tuned-Modell innerhalb einer Prompt-Engineering-Schleife. Das Fine-Tuned-Modell bearbeitet spezialisierte Aufgaben, während ein Prompt-Engineer Kontext und Routing-Logik hinzufügt.
- Verwenden Sie Prompt Engineering, um Anfragen weiterzuleiten: „Ist dies ein Rechtsdokument, eine medizinische Notiz oder ein Finanzbericht?"
- Verwenden Sie Fine-Tuning für spezialisierte Modelle: Ein Fine-Tuned-Rechtmodell, ein Fine-Tuned-Medizinmodell, ein Fine-Tuned-Finanzmodell.
- Verwenden Sie Prompt Engineering für Ausgabeformatierung: Auch ein Fine-Tuned-Modell profitiert von klaren Format-Anweisungen.
- Kombinieren Sie für Kosten: Fine-tunen Sie 10 % der Grenzfälle, leiten Sie 90 % durch günstigere Prompt Engineering weiter.
🔍 Die Wartungsfalle
Jedes Mal, wenn eine neue Modellversion freigegeben wird, werden Fine-Tuned-Modelle obsolet. Sie müssen sie neu trainieren. Prompt Engineering erfordert nur Anpassungen. Budgetieren Sie für jährliche Fine-Tuning-Retraining-Kosten—sie addieren sich auf.
Kostenstruktur-Vergleich
| Anbietertyp | Prompt Engineering Kosten | Fine-Tuning Kosten | Inferenz Kosten |
|---|---|---|---|
| Proprietäre Modelle | Niedrig pro Inferenz | Bedeutende Vorabinvestition | Höher für Fine-Tuned-Modelle |
| Open-Source Cloud | Niedrig pro Inferenz | Moderate Investition | Variabel je Anbieter |
| Selbstgehostet lokal | Minimal (Ihre Hardware) | Hardware-Kosten + Zeit | Einmalige Hardware-Investition |
| Hybrid-Ansatz | Niedrige Anfangskosten | Über die Zeit verteilt | Ausgewogenes Kosten-Nutzen-Verhältnis |
🔍 Kostenstruktur
Prompt-Engineering-Kosten sind variabel (pro Inferenz). Fine-Tuning-Kosten sind Front-loaded (Training) plus laufende Inferenz. Das Kosten-Nutzen-Verhältnis begünstigt Prompt Engineering für die meisten Fälle, wobei Fine-Tuning nur Wert hinzufügt, wenn spezialisierte Performance kritisch ist.
Fünf häufige Fehler
❌ Fine-Tuning vor dem Testen von Prompts
Why it hurts: Organisationen springen zu Fine-Tuning, ohne ernsthaft Prompts zu iterieren. Ergebnis: 3000 € für Fine-Tuning ausgegeben, wenn 0 € Prompt Engineering funktioniert hätte.
Fix: Testen Sie Prompt Engineering zuerst. Führen Sie 30-50 Beispiele mit 3-5 Prompt-Variationen aus. Fine-tunen Sie nur, wenn der beste Prompt immer noch 20%+ fehlschlägt.
❌ Training auf kleinen Datensätzen
Why it hurts: Fine-Tuning auf 20 Beispielen pro Klasse. Ergebnis: Überfitting, Modell schlägt bei neuen Beispielen fehl.
Fix: Sammeln Sie mindestens 100 Beispiele pro Kategorie. Idealerweise 500+. Überprüfen Sie, dass Ihre Trainings- und Testverteilungen reale Daten widerspiegeln.
❌ Inferenzkosten vergessen
Why it hurts: Organisationen berechnen Fine-Tuning-Kosten (2000 €), vergessen aber, dass Fine-Tuned-Modelle 2-3x mehr zum Ausführen kosten.
Fix: Berechnen Sie die Gesamtbetriebskosten: Training + (Inferenzkosten pro Anruf × erwartetes Volumen × Zeithorizont).
❌ Modellversionierung ignorieren
Why it hurts: Ein Fine-Tuned-Modell funktioniert großartig, dann wird GPT-4o aktualisiert. Das Fine-Tuned-Modell ist jetzt veraltet und muss neu trainiert werden.
Fix: Budget für jährliches Retraining oder Migration zu neuen Modellen. Dokumentieren Sie, welche Basismodellversion jedes Fine-Tune ist.
❌ Falsches Modell Fine-Tuning
Why it hurts: Fine-Tuning eines zu kleinen Modells für die Aufgabe (z. B. ein 7B-Modell für komplexes Reasoning).
Fix: Starten Sie mit dem größten Modell, das Sie sich leisten können. Fine-tunen Sie zur Kostenoptimierung, nicht zur Behebung eines schwachen Basismodells.
Häufig gestellte Fragen
Welcher Ansatz sollte ich zuerst versuchen?
Beginnen Sie immer mit Prompt Engineering. Es ist kostenlos, sofort und reversibel. Wechseln Sie zu Fine-Tuning nur, wenn Prompt Engineering nach wiederholten Versuchen fehlschlägt.
Wie erhalte ich Trainingsdaten für Fine-Tuning?
Sammeln Sie Ihre eigenen Beispiele, verwenden Sie vorhandene Datensätze oder stellen Sie Annotatoren ein. Datenqualität ist wichtiger als Quantität.
Kann ich ein Fine-Tuned-Modell erneut fine-tunen?
Technisch ja, aber es ist selten notwendig. Üblicherweise fine-tunen Sie einmal auf Ihren besten Daten.
Was ist LoRA Fine-Tuning?
Low-Rank Adaptation ist eine Technik, die nur einen Teil des Modells fine-tuned und damit die Ressourcen- und Kostenanforderungen reduziert.
Sollte ich lokal oder in der Cloud fine-tunen?
Cloud-basiertes Fine-Tuning ist einfacher und schneller. Lokales Fine-Tuning gibt Ihnen Kontrolle über Datenschutz und Infrastruktur.
Wie lange dauert Fine-Tuning?
Fine-Tuning dauert beträchtliche Zeit—Wochen bis Monate je nach Datengröße, Modellgröße und Hardware.
Was, wenn Fine-Tuning nicht hilft?
Sie haben möglicherweise das falsche Basismodell, unzureichende Trainingsdaten oder unrealistische Erwartungen. Versuchen Sie zunächst ein größeres Modell oder mehr Daten.
Kann ich Prompt Engineering und Fine-Tuning kombinieren?
Ja, dies ist Best Practice. Verwenden Sie Fine-Tuning für Kernkompetenz und Prompt Engineering für Flexibilität und Routing-Logik.
Ähnliche Artikel
DACH-Kontext: Datenschutz und Enterprise-Anforderungen
In Deutschland, Österreich und der Schweiz sind Fine-Tuning und Prompt Engineering unter DSGVO und BSI-Grundschutz-Anforderungen unterschiedlich zu bewerten. Fine-Tuning mit lokalen Modellen (z. B. Ollama, lokale LoRA-Adapter) erfüllt Datenschutzanforderungen besser, da Trainingsdaten nicht an US-amerikanische Cloud-Provider übertragen werden. Prompt Engineering mit privaten APIs (selbstgehostete Modelle) ist ideal für regulierte Branchen wie Finanzdienstleistungen, Medizin und Rechtsberatung.