PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Prompt Engineering für lokale LLMs 2026: CoT & Few-Shot
Fortgeschrittene Techniken

Prompt Engineering für lokale LLMs 2026: CoT & Few-Shot

·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lokale LLMs (7B-13B-Modelle) reagieren anders auf Prompts als Cloud-APIs. Sie benötigen explizite Struktur, klarere Anweisungen und weniger Abhängigkeit vom kontextbasierten Lernen.

Lokale 7B–13B-Modelle reagieren anders auf Prompts als GPT-5.2 oder Claude. Sie benötigen explizite Struktur, klarere Anweisungen und 3–5 Few-Shot-Beispiele, während Cloud-Modelle nur 1–2 benötigen. Im April 2026 gehören zu bewährten Techniken Chain-of-Thought-Prompting (+10–20% Genauigkeit), Rollendefinition, strukturierte Ausgabeformatierung (JSON) und System-Prompt-Konfiguration in Ollama und LM Studio.

Wichtigste Erkenntnisse

  • Lokale 7B-Modelle benötigen explizitere Anleitung als GPT-4o. Längere Prompts, klarere Anweisungen.
  • Gedankenketten-Prompting („Lass mich Schritt für Schritt denken") verbessert die Genauigkeit um 10–20%.
  • Geben Sie immer das Ausgabeformat an (JSON, Markdown, Klartext). Unstrukturierte Ausgaben sind unvorhersehbar.
  • Few-Shot-Beispiele (1–3) funktionieren besser als Zero-Shot bei lokalen Modellen. Mehr Beispiele = bessere Konsistenz.
  • Rollendefinition („Du bist ein Python-Experte") verbessert domänenspezifische Antworten.

Schnellübersicht

  • Genauigkeitsverbesserung mit CoT: 10–20% Verbesserung bei Argumentationsaufgaben
  • Few-Shot-Anforderung: Lokale 7B benötigen 3–5 Beispiele vs. Cloud-APIs benötigen 1–2
  • Kontextverbrauch: Jedes Beispiel verbraucht 50–200 Token
  • Temperaturauswirkung: Senkung von 0,8 auf 0,3 verbessert die faktische Genauigkeit um 15–25%
  • Modellgrößenunterschied: 7B-Modelle benötigen explizitere Anleitung als 70B-Modelle
  • Ausgabeformat-Konsistenz: JSON-Spezifikationen verbessern die Zuverlässigkeit um 30–40%

Wie unterscheiden sich lokale Modelle?

AspektGPT-5.2 (ChatGPT Plus)Lokal 7B (Llama 3.1 8B)Lokal 70B (Llama 3.3)
Kontextfenster128K Token4K–128K Token128K Token
AnweisungsfolgeAusgezeichnetGut mit expliziten PromptsSehr gut
Few-Shot-Lernen1–2 Beispiele3–5 Beispiele notwendig2–3 Beispiele
ArgumentationMehrstufig implizitSchritt-für-Schritt explizit erforderlichModerat implizit
System-PromptVon API behandeltPro Tool konfigurierenPro Tool konfigurieren
Temperaturstandard1,0 (API)0,8 (Ollama-Standard)0,8 (Ollama-Standard)

Wie verbessert Gedankenketten-Prompting die Genauigkeit?

Gedankenketten-Prompting (CoT) fordert das LLM auf, seine Argumentation Schritt für Schritt zu zeigen, bevor es antwortet. Diese Technik ist besonders wirksam bei lokalen 7B–13B-Modellen, da ihnen die implizite Argumentationsfähigkeit größerer Cloud-Modelle fehlt. Bei einem mathematischen Problem wie „17 × 24" raten lokale Modelle ohne CoT oft falsch. Mit expliziter Schritt-für-Schritt-Argumentation unterteilen sie das Problem in Teile und erzielen 10–20% höhere Genauigkeit.

Ohne CoT: „Was ist 17 × 24?" → Modell antwortet direkt, oft falsch.

Mit CoT: „Löse das Schritt für Schritt: 17 × 24" → Modell zeigt: 17 × 20 = 340, 17 × 4 = 68, insgesamt = 408. Genauer.

Erfahren Sie, wie sich diese Technik auf lokale KI-Agenten erweitert, die intern Argumentation nutzen, um Tools auszuwählen.

📍 In einem Satz

Gedankenketten-Prompting instruiert das Modell, Argumentation in explizite Schritte zu zerlegen, bevor es antwortet, und verbessert die Genauigkeit um 10–20% bei komplexen Aufgaben.

python
# Prompt mit CoT
prompt = """
You will answer a question by thinking step-by-step.
Let me think about this:

Question: Why do local LLMs require more explicit prompting than cloud APIs?

Thinking:
1. First, consider the differences in model size...
2. Then, think about training data and fine-tuning...
3. Finally, consider the architecture and inference optimization...

Answer:
"""

# This guides the model to reason through the problem

💡: Profi-Tipp: CoT funktioniert am besten, wenn Sie die Ausgabe mit teilweiser Argumentation vorbereiten. Beispiel: „Lass mich das Schritt für Schritt aufschlüsseln: Zunächst bemerke ich..."

Warum ist die Angabe des Ausgabeformats für lokale Modelle kritisch?

Die Angabe des exakten Ausgabeformats (JSON, Markdown, Klartext) ist für lokale Modelle kritisch, da sie ohne explizite Anweisungen unvorhersehbare Ausgaben erzeugen. Cloud-Modelle wie GPT-4o können Absichten aus vagen Anfragen ableiten; lokale 7B–13B-Modelle können das nicht. Für lokale RAG-Systeme, die strukturierte Dokumentextraktion benötigen, verhindern JSON-Formatspezifikationen Parsing-Fehler und erhöhen die Extraktionsgenauigkeit um 30–40%.

Beispiel: „Extrahiere Entitäten aus dem Text" könnte Narrativtext statt einer Liste zurückgeben.

Besser: „Extrahiere Entitäten als JSON mit Schlüsseln: Person, Ort, Organisation".

python
# Bad: ambiguous output
prompt = "Summarize this text"

# Good: explicit format
prompt = """
Summarize the text in EXACTLY 3 bullet points.
Format as a JSON list:
{
  "summary": [
    "- Point 1",
    "- Point 2",
    "- Point 3"
  ]
}
"""

⚠️: Häufiges Problem: Lokale Modelle weigern sich manchmal, rohes JSON auszugeben. Fügen Sie „Geben Sie NUR JSON aus, keinen Markdown-Zaun" zum Prompt hinzu, um dies zu umgehen.

Wie verbessert die Rollenzuweisung die Antworten lokaler Modelle?

Die Zuweisung einer spezifischen Rolle („Du bist ein Python-Experte mit 10 Jahren Erfahrung") verbessert domänenspezifische Antworten dramatisch im Vergleich zu generischen Prompts. Diese Technik, Persona-Prompting genannt, funktioniert, indem die Antworterstellung des Modells an eine spezifische Fachdomäne gebunden wird. Lokale Modelle reagieren 15–25% besser auf Rollendefinition als Cloud-Modelle, da ihnen die robuste RLHF-Ausrichtung fehlt, die generischen Prompts ermöglicht zu funktionieren. Beispiele:

- „Du bist ein Python-Experte" → bessere Codeerklärungen

- „Du bist ein medizinischer Forscher" → detailliertere biomedizinische Antworten

- „Du bist ein skeptischer Analyst" → kritischeres Denken

Kombinieren Sie Rollendefinition mit Fine-Tuning für noch stärkere Domänenausrichtung, wenn Sie über viele Anwendungsfälle hinweg bereitstellen.

💬 In einfachen Worten

Mit einfachen Worten sagt Persona-Prompting dem Modell, welchen „Hut" es beim Antworten tragen soll. Ein Python-Experten-Hut erzeugt anderen (und besseren) Code als ein generischer Assistent-Hut.

🎯: Best Practice: Spezifität ist wichtig. „Du bist ein Experte" ist schwach; „Du bist ein Python-Experte mit 10 Jahren Backend-Erfahrung, fokussiert auf Async/Await-Muster" ist stark.

Wie stellt man System-Prompts in Ollama, LM Studio und llama.cpp ein?

Der System-Prompt definiert die Rolle und Einschränkungen des Modells vor der Nachricht des Benutzers, und jedes Tool (Ollama, LM Studio, llama.cpp) erfordert ein anderes Format, um ihn festzulegen.

bash
# Ollama (Modelfile)
FROM llama3.1:8b
SYSTEM """You are a Python expert with 10 years experience. Answer only Python questions. Provide code examples. Use type hints."""
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER repeat_penalty 1.1

# Ollama (API / OpenAI SDK)
response = client.chat.completions.create(
  model="llama3.1:8b",
  messages=[
    {"role": "system", "content": "You are a Python expert..."},
    {"role": "user", "content": "Write a FastAPI endpoint"}
  ],
  temperature=0.7
)

# LM Studio (GUI)
# Settings → System Prompt field (paste your prompt)
# Or via API at localhost:1234 — identical format to Ollama

# llama.cpp (CLI)
./main -m llama-3.1-8b.gguf \
  --system-prompt "You are a Python expert..." \
  --temp 0.7 --top-p 0.9 --repeat-penalty 1.1 \
  -p "Write a FastAPI endpoint"

Wie beeinflussen Temperatur und Sampling-Parameter die Ausgabequalität?

Das Tunen von Temperatur, Top_P und Repeat_Penalty hat mehr Auswirkung auf die Ausgabequalität lokaler 7B als nur die Wortformulie, und lokale Modelle erfordern andere Standardwerte als Cloud-APIs.

Wichtige Erkenntnis für lokale Modelle: Ollaamas Standard-Temperatur (0,8) ist höher als OpenAIs API-Standard (1,0 mit Nucleus-Sampling). Die Senkung der Temperatur auf 0,3–0,5 verbessert die faktische Genauigkeit bei lokalen 7B-Modellen dramatisch. Für Coding-Aufgaben sollten Sie die Temperatur auf 0,1–0,2 und Repeat_Penalty auf 1,0 setzen (Code benötigt wiederholte Muster wie Importe und Funktionsaufrufe).

ParameterWovon wird gesteuertStandard (Ollama)Empfohlen
temperatureZufälligkeit0,80,3–0,5 für faktisch, 0,7–0,9 für kreativ
top_pVokabular-Vielfalt0,90,8 für konsistent, 0,95 für variiert
repeat_penaltyWiederholungsvermeidung1,11,1–1,2 für Chat, 1,0 für Code

📌: Wichtiger Punkt: Temperatur ist ein Multiplikator für Logits. Bei 0,0 wählen Sie immer den wahrscheinlichsten Token. Bei 1,0+, erhöht sich die Zufälligkeit. Lokale Modelle sättigen sich über 1,5 Temperatur.

Warum benötigen lokale Modelle mehr Few-Shot-Beispiele als Cloud-APIs?

Die Bereitstellung von 3–5 Beispielen (Few-Shot-Lernen) für lokale Modelle verbessert die Ausgabekonsistenz um 15–25% mehr als Zero-Shot, während Cloud-Modelle nur 1–2 Beispiele benötigen.

Lokale Modelle profitieren von mehr Beispielen, da sie weniger Parameter und diversere Trainingsdaten haben. Few-Shot-Lernen ist eine In-Context-Learning-Technik, die dem Modell das erwartete Input/Output-Muster zeigt, bevor Sie es die eigentliche Aufgabe lösen lassen.

python
# Few-shot prompt
prompt = """
Classify sentiment. Examples:

"I love this product!" → positive
"Worst experience ever" → negative
"It's okay, nothing special" → neutral

Now classify: "This is amazing!"
Answer: """

# Model learns format and style from examples

🛠️: Implementierungs-Tipp: Variieren Sie Beispiele (1 einfach, 1 mittel, 1 schwer) besser als 3 ähnliche. Vielfalt verbessert Verallgemeinerung und verhindert Überanpassung an spezifische Muster.

Häufige Fehler beim Prompt Engineering

  • Ausführliche Prompts ohne Struktur. Ausschweifende Anweisungen verwirren lokale Modelle. Seien Sie prägnant und explizit.
  • Keine Verwendung von Gedankenketten. CoT verbessert die Genauigkeit um 10–20%. Immer für Argumentationsaufgaben verwenden.
  • Annahme, dass ein Prompt für alle funktioniert. Iterieren und testen. Kleine Wortänderungen verursachen große Ausgabeveränderungen.
  • Ausgabeformat ignorieren. Ohne explizite Formatspezifikation sind Ausgaben unvorhersehbar.
  • Vage Rollendefinitionen verwenden. „Du bist ein Experte" ist vag. „Du bist ein Python-Experte mit 10 Jahren Erfahrung" ist besser.

📍: Wussten Sie? Die wirksamsten Prompts iterieren 3–5 Versionen. Lokales Modell-Prompting ist nicht „einmal einstellen und vergessen"—kleine Verfeinerungen führen zu signifikanten Genauigkeitsgewinnen.

Regionale Überlegungen für Prompt Engineering

EU (GDPR/DSGVO): Bei der Bereitstellung von Prompt Engineering für lokale Modelle auf EU-Infrastruktur müssen alle für die Prompt-Iteration verwendeten Trainingsdaten die GDPR-Datenminimierungsprinzipien einhalten. Exportieren Sie Benutzerabfragen nicht zu externen APIs zum Testen; iterieren Sie lokal. Gemäß DSGVO Artikel 28 müssen Sie eine Datenschutzerklärung für Auftragsverarbeiter mit Ihrem Infrastrukturanbieter haben.

Japan (APPI): Japanische Unternehmen, die lokale LLMs für Kundendaten nutzen, müssen explizites Audit-Logging aller Prompts und Antworten implementieren. Die Prompt-Qualität wirkt sich direkt auf die Datensicherheit aus – schlecht entwickelte Prompts können sensible Informationen in Ausgaben offenlegen.

China (Datensicherheitsgesetz 2021): Lokale LLM-Bereitstellungen in Festlandchina müssen alle Inferenz, Prompting und Modell-Tuning vor Ort durchführen. Qwen und andere Inlandmodelle werden bevorzugt, um die Datenspeicherungs-Compliance sicherzustellen.

DACH-Unternehmen (Deutschland, Österreich, Schweiz): Lokales Prompt Engineering erfüllt die BSI-Grundschutz-Kataloge durch lokale Datenverarbeitung. Für Mittelstand-Unternehmen bietet lokales Prompting volle Kontrolle über IT-Sicherheitsstandards und vermeidet Abhängigkeit von US-basierten Cloud-Anbietern.

Häufig gestellte Fragen zum lokalen LLM-Prompting

Warum benötigen lokale LLMs explizitere Prompts als GPT-4o?

Lokale 7B–13B-Modelle haben weniger Parameter und diversere Trainingsdaten als GPT-4o (geschätzt 1,8T Parameter). Sie können mehrdeutige Absichten nicht so gut ableiten. Explizite Anweisungen – Format, Rolle, Schritt-für-Schritt-Argumentation – kompensieren diese Lücke. Gedankenketten-Prompting verbessert die Genauigkeit lokaler Modelle um 10–20% bei Argumentationsaufgaben.

Wie viele Few-Shot-Beispiele sollte ich in Prompts für lokale LLMs einbeziehen?

3–5 Beispiele sind optimal für lokale 7B-Modelle. GPT-4o benötigt typischerweise nur 1–2 Beispiele. Mehr Beispiele verbessern die Konsistenz, verbrauchen aber Kontextfenster-Token (4K–32K Token je nach Modell). Für Llama 3.2 8B mit 4K-Kontextfenster sollten Sie auf 3 Beispiele plus Ihre Aufgabe begrenzen. Für Modelle mit 32K+-Kontext sind 5 Beispiele sicher.

Funktioniert Gedankenketten-Prompting bei allen lokalen Modellen?

Gedankenketten-Prompting funktioniert mit jedem Anweisungs-abgestimmten Modell (Llama 3.x, Qwen 2.5, Mistral 7B). Basis-Modelle (nicht anweisungsabgestimmt) folgen „denke Schritt für Schritt"-Anweisungen nicht zuverlässig. Für lokale Modelle funktionieren CoT-Phrasen wie „Löse das Schritt für Schritt:" oder „Argumentation:" am Anfang der erwarteten Ausgabe am besten.

Welches Ausgabeformat ist für lokale LLMs am zuverlässigsten?

JSON ist das zuverlässigste strukturierte Ausgabeformat für lokale LLMs. Geben Sie das genaue JSON-Schema im Prompt an: „Antworte NUR mit einem JSON-Objekt mit Schlüsseln: Name, Score, Begründung." Markdown-Kopfzeilen (##) sind zuverlässig für Abschnitte. Vermeiden Sie XML oder benutzerdefinierte Formate – lokale Modelle handhaben sie inkonsistent.

Wie verhinderere ich, dass ein lokales LLM vom Thema abweicht?

Fügen Sie eine explizite Einschränkung zum System- oder Anweisungs-Prompt hinzu: „Antworte NUR zu [Thema]. Wenn nach etwas anderem gefragt wird, sag: Ich kann nur mit [Thema] helfen." Verwenden Sie für Ollama das System-Prompt-Feld. Für llama.cpp stellen Sie es dem System-Nachricht voran. Dieses Grenzsetzen funktioniert erheblich besser bei lokalen 7B-Modellen als bei Cloud-Modellen, die stärkere RLHF-Ausrichtung haben.

Was ist der Unterschied zwischen Zero-Shot und Few-Shot-Prompting für lokale Modelle?

Zero-Shot gibt keine Beispiele: „Klassifiziere diese E-Mail als Spam oder nicht Spam." Few-Shot gibt 2–5 gekennzeichnete Beispiele vor der Aufgabe. Für lokale 7B-Modelle übertrifft Few-Shot konsistent Zero-Shot bei Klassifizierungs- und Extraktionsaufgaben um 15–25% Genauigkeit. Zero-Shot funktioniert gut bei Generierungsaufgaben (Zusammenfassung, Übersetzung), bei denen das Format weniger kritisch ist.

Wie teste und iteriere ich Prompts für lokale Modelle?

Testen Sie 5–10 verschiedene Beispiele. Ändern Sie jeweils nur eine Variable (Rolle, Format oder CoT-Anweisung). Messen Sie die Genauigkeit oder Konsistenz vor/nach. Verwenden Sie einen einfachen Test-Satz: 2–3 einfache Beispiele, 2–3 schwierige Beispiele. Verfolgen Sie, welche Prompt-Versionen am besten funktionieren. Iterieren Sie in 3–5-Prompt-Variationen-Zyklen. Dokumentieren Sie funktionierende Prompts in einer Prompt-Bibliothek zur Wiederverwendung.

Sollte ich Prompt-Engineering oder Fine-Tuning für eine bestimmte Aufgabe verwenden?

Machen Sie zuerst Prompt-Engineering (schnell, kostenlos, iterativ). Wenn die Genauigkeit nach 20+ Prompt-Variationen ein Plateau erreicht, dann Fine-Tune. Fine-Tuning erfordert 500+ aufgabenspezifische Beispiele und 1–4 Stunden Trainingszeit, bringt aber 10–20% Genauigkeitsgewinne. Für allgemeine Aufgaben reicht Prompt-Engineering normalerweise. Für domänenspezifische Aufgaben (medizinisch, legal, Codierung) bringt Fine-Tuning dauerhafte Verbesserungen.

Wie unterscheiden sich System-Prompts von Benutzeranweisungen in lokalen LLMs?

System-Prompts definieren die Rolle und Einschränkungen des Modells vor der Benutzernachricht und sind Teil der Request-Struktur (in Ollama, LM Studio oder via API). Benutzeranweisungen sind Teil der Unterhaltung. System-Prompts legen das grundlegende Verhalten fest und sind zuverlässiger als das Einbetten von Anweisungen in Benutzertexte. Für lokale Modelle verbessert ein gut geschriebener System-Prompt die Konsistenz um 15–25%, da das Modell systemebenen-Einschränkungen über Benutzertexte priorisiert.

Kann ich denselben Prompt über verschiedene lokale Modelle hinweg verwenden?

Teilweise. Die grundlegende CoT-Struktur und Rollendefinitionen übertragen sich auf Modelle (Llama, Qwen, Mistral). Jedes Modell erfordert jedoch Prompt-Tuning für optimale Ergebnisse. Llama-Modelle reagieren auf „Lass mich Schritt für Schritt denken", während Qwen-Modelle „Zunächst muss ich..." bevorzugen. Testen Sie Ihren Prompt auf dem genauen Modell, den Sie bereitstellen. Größere Modelle (70B) sind verzeihender gegenüber Prompt-Variationen als kleinere Modelle (7B).

Muss ich bei der Verwendung von Prompt Engineering die DSGVO beachten?

Ja. Gemäß DSGVO Artikel 28 müssen alle Trainingsdaten und Benutzereingaben, die zur Prompt-Iteration verwendet werden, lokal verarbeitet werden. Exportieren Sie Benutzerdaten nicht zu Cloud-APIs zum Testen. Lokale Prompt-Iteration erfüllt Anforderungen der Datenminimierung und Datenspeicherung. Dokumentieren Sie Ihre Prompt-Iterationsprozesse als Teil Ihrer Datenschutzerklärung.

Ist Prompt Engineering für den deutschen Mittelstand geeignet?

Absolut. Mittelstand-Unternehmen profitieren von lokaler Prompt-Optimierung für: (1) Datenschutz – keine Cloud-Abhängigkeit, (2) BSI-Grundschutz-Compliance – lokale Infrastruktur erfüllt IT-Sicherheitsstandards, (3) Kostenersparnis – nach der anfänglichen Hardware-Investition, (4) Kontrolle – vollständige Audit-Trails und keine Abhängigkeit von US-basierten APIs. Lokales Prompt Engineering ist ein ideales Sprungbrett für Mittelstand-Unternehmen in KI-Technologien ohne regulatorisches Risiko.

Quellen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Prompt Engineering für lokale LLMs 2026: CoT & Few-Shot