PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Eigene lokale LLMs erstellen 2026: Fine-Tuning vs. Pre-Training mit Unsloth und Ollama
Fortgeschrittene Techniken

Eigene lokale LLMs erstellen 2026: Fine-Tuning vs. Pre-Training mit Unsloth und Ollama

·12 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Eigene lokale LLMs erstellen bedeutet, ein bestehendes Modell zu Fine-Tuning oder von Grund auf zu pre-trainieren. Im April 2026 ist Fine-Tuning mit LoRA auf Consumer-Hardware praktikabel: 500 Beispiele, 8 GB VRAM, 1–2 Stunden, 100–500 €. Pre-Training kostet 50.000–500.000 € und benötigt 10 Milliarden+ Tokens – begründet nur für seltene proprietäre Bedürfnisse. Dieser Leitfaden behandelt beide Ansätze: den 7-Schritt-Fine-Tuning-Pfad mit Unsloth, die Entscheidungsmatrix für Fine-Tuning vs. Pre-Training vs. RAG und die Bereitstellung auf Ollama.

Eigene lokale LLMs erstellen bedeutet, ein bestehendes Modell zu Fine-Tuning oder von Grund auf zu pre-trainieren. Im April 2026 ist Fine-Tuning mit LoRA auf Consumer-Hardware praktikabel: 500 Beispiele, 8 GB VRAM, 1–2 Stunden, 100–500 €. Pre-Training kostet 50.000–500.000 € und benötigt 10 Milliarden+ Tokens – begründet nur für seltene proprietäre Bedürfnisse. Dieser Leitfaden behandelt beide Ansätze: den 7-Schritt-Fine-Tuning-Pfad mit Unsloth, die Entscheidungsmatrix für Fine-Tuning vs. Pre-Training vs. RAG und die Bereitstellung auf Ollama.

Präsentation: Eigene lokale LLMs erstellen 2026: Fine-Tuning vs. Pre-Training mit Unsloth und Ollama

Die Präsentationsfolien behandeln: Fine-Tuning vs. Pre-Training Analyse, 7-Schritt-Unsloth-Pfad, GGUF-Bereitstellung und Produktionsreife-Metriken. Als Referenzkarte zum Custom-LLM-Fine-Tuning herunterladen.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • Fine-Tuning (empfohlen): 8 GB VRAM, 500+ Trainingsbeispiele, 1–4 Stunden. Kosten: 100–500 €.
  • Pre-Training: 8+ GPUs, 100B+ Tokens, Wochen Training. Kosten: 50.000–500.000 €.
  • Die meisten Organisationen sollten Fine-Tunen, nicht Pre-Trainieren. Sinkende Erträge für Custom Pre-Training.
  • Beste Methode: Beginnen Sie mit Fine-Tuning auf Ihren Domänendaten, evaluieren Sie dann, ob Pre-Training begründet ist.
  • Ab April 2026 ist Pre-Training selten begründet, außer Sie benötigen proprietäres Modell.

Fine-Tuning vs. Pre-Training

AspektFine-TuningPre-Training
Trainingszeit1–4 StundenWochen–Monate
VRAM erforderlich8 GB100+ GB (Multi-GPU)
Daten erforderlich500–5.000 Beispiele100B+ Tokens
Kosten100–500 €50.000–500.000 €
AnpassungFachwissenProprietäres Modell
Wann verwenden99% der FälleSeltene, spezialisierte Bedürfnisse
Fine-Tuning (1–4 Stunden, 100–500 €, 8 GB VRAM) vs. Pre-Training (Wochen–Monate, 50.000–500.000 €, 100+ GB): Vergleich von Trainingszeit, Kosten, Datenanforderungen und Anwendungsfall.
Fine-Tuning (1–4 Stunden, 100–500 €, 8 GB VRAM) vs. Pre-Training (Wochen–Monate, 50.000–500.000 €, 100+ GB): Vergleich von Trainingszeit, Kosten, Datenanforderungen und Anwendungsfall.

Fine-Tuning-Pfad (Empfohlen)

  1. 1
    Sammeln Sie 500–5.000 domänenspezifische Beispiele (Qualität ist wichtig).
  2. 2
    Wählen Sie Basismodell (Llama 3.1 8B, Qwen 7B, etc.).
  3. 3
    Verwenden Sie LoRA für effizientes Training (4× schneller, gleiche Qualität).
  4. 4
    Trainieren Sie 3–5 Epochen auf GPU.
  5. 5
    Evaluieren Sie auf Test-Set (Genauigkeit, Recall, benutzerdefinierte Metriken).
  6. 6
    Zusammenführen von LoRA-Adapter mit Basismodell.
  7. 7
    Bereitstellung als Produktionsmodell.
7-Schritt-Fine-Tuning-Workflow: Daten sammeln → Basismodell wählen → mit LoRA trainieren (3–5 Epochen, 8 GB VRAM) → evaluieren → zusammenführen → in GGUF konvertieren → auf Ollama bereitstellen. Gesamtzeit: 1–4 Stunden.
7-Schritt-Fine-Tuning-Workflow: Daten sammeln → Basismodell wählen → mit LoRA trainieren (3–5 Epochen, 8 GB VRAM) → evaluieren → zusammenführen → in GGUF konvertieren → auf Ollama bereitstellen. Gesamtzeit: 1–4 Stunden.

LoRA vs. vollständiges Fine-Tuning: Welches wählen?

LoRA (Low-Rank Adaptation) aktualisiert nur 1–2% der Modellgewichte, macht es 4× schneller und benötigt 80–90% weniger VRAM als vollständiges Fine-Tuning. Vollständiges Fine-Tuning aktualisiert alle Gewichte und liefert marginal bessere Ergebnisse (2–5% Genauigkeitsverbesserung), erfordert aber 64+ GB VRAM und erhebliche Rechenressourcen.

LoRA (4× schneller, 8 GB VRAM, 95–98% Genauigkeit) vs. vollständiges Fine-Tuning (Basisgeschwindigkeit, 64+ GB VRAM, +2–5% Gewinn): Geschwindigkeit-Genauigkeit Trade-off und VRAM-Anforderungsvergleich.
LoRA (4× schneller, 8 GB VRAM, 95–98% Genauigkeit) vs. vollständiges Fine-Tuning (Basisgeschwindigkeit, 64+ GB VRAM, +2–5% Gewinn): Geschwindigkeit-Genauigkeit Trade-off und VRAM-Anforderungsvergleich.

VRAM-Anforderungen nach Modellgröße

Nicht alle Modelle passen in 8 GB VRAM zum LoRA Fine-Tuning. Hier ist, was Sie ausführen können:

Fine-Tuning VRAM-Kompatibilität: 3B–8B Modelle ✓ funktionieren auf 8 GB, 13B ✓ funktioniert aber eng, 32B benötigt 64+ GB, 70B nicht durchführbar. LoRA addiert ~25% Overhead für Batch-Training.
Fine-Tuning VRAM-Kompatibilität: 3B–8B Modelle ✓ funktionieren auf 8 GB, 13B ✓ funktioniert aber eng, 32B benötigt 64+ GB, 70B nicht durchführbar. LoRA addiert ~25% Overhead für Batch-Training.

Bereitstellung Ihres benutzerdefinierten Modells auf Ollama

Nach Zusammenführung des LoRA-Adapters, Bereitstellung auf Ollama in 3 Schritten:

  1. 1
    Schritt 1 – In GGUF exportieren: Verwenden Sie llama.cpp-Konvertierungsskript, um Ihr zusammengeführtes Modell von PyTorch/Safetensors-Format in GGUF zu konvertieren. Dies ist wesentlich für Ollama- und llama.cpp-Kompatibilität. ```bash python convert_hf_to_gguf.py \ --model ./merged-model \ --outfile ./my-custom-model.gguf \ --outtype q4_k_m ```
  2. 2
    Schritt 2 – Ollama Modelfile erstellen: Definieren Sie System-Prompt, Parameter und Inferenz-Einstellungen Ihres Modells. ``` FROM ./my-custom-model.gguf SYSTEM "Sie sind ein [Ihre Domäne] Experte..." PARAMETER temperature 0,4 PARAMETER num_ctx 4096 ```
  3. 3
    Schritt 3 – Registrieren und ausführen: Laden Sie Ihr Modell in Ollama für lokale oder API-Zugriff. ```bash ollama create my-custom-model -f Modelfile ollama run my-custom-model ``` Ihr Fine-Tuned-Modell ist nun über Ollamas OpenAI-kompatible API unter localhost:11434 zugänglich – identisch mit jedem Standard-Ollama-Modell. Verwenden Sie es mit Continue.dev, Open WebUI oder Ihrer eigenen Anwendung über das Python/Node.js OpenAI SDK.

Pre-Training: Wann und warum

Pre-Training bedeutet Lernen aus Rohdaten (Bücher, Dokumente, Code). Nur begründet, wenn:

1. Sie >10 Milliarden Tokens eindeutiger, wertvoller Daten haben.

2. Vortrainierte Modelle konsistent bei Ihrer Domäne versagen.

3. Budget ist >50.000 € (realistisch).

4. Sie benötigen proprietäres Modell (Wettbewerbsvorteil).

Beispiel: Ein Genomics-Unternehmen mit 500 GB privater Forschungsdaten könnte custom Pre-Training begründen.

Entscheidungsmatrix: Welcher Ansatz?

Drei Hauptansätze für benutzerdefinierte Modelle. Wählen Sie basierend auf Ihren Daten, Budget und Zeitrahmen:

Entscheidungsmatrix: Verwenden Sie RAG, wenn Sie keine Trainingsdaten haben (€0), Fine-Tuning, wenn Sie 500+ Beispiele haben (€100–500, 1–4 Stunden), oder Pre-Training, wenn Sie 100B+ Tokens haben (€50.000–500.000, Wochen–Monate).
Entscheidungsmatrix: Verwenden Sie RAG, wenn Sie keine Trainingsdaten haben (€0), Fine-Tuning, wenn Sie 500+ Beispiele haben (€100–500, 1–4 Stunden), oder Pre-Training, wenn Sie 100B+ Tokens haben (€50.000–500.000, Wochen–Monate).

Domänenanpassungsstrategien

Verbessern Sie Modellleistung auf Ihrer Domäne, ohne vollständiges Pre-Training:

  • Fortgesetztes Pre-Training: Basismodell, trainiert auf Ihren Domänendaten (10B+ Tokens). Günstiger als vollständiges Pre-Training.
  • LoRA Fine-Tuning: Praktischste. Abstimmung auf 500+ Beispiele.
  • Prompt-Engineering: Verfassen Sie gute Prompts. Kostenlos, aber begrenzt.
  • RAG: Abrufen von Dokumenten, Bereitstellung von Kontext. Funktioniert ohne Umschulung.
  • Ensemble: Kombination mehrerer Modelle.

Evaluierungsmetriken

Modellqualität messen:

  • Aufgabenspezifische Metriken: Genauigkeit, F1-Score, BLEU (für Textgenerierung).
  • Benchmark-Tests: Ausführen auf Standardbenchmarks (MMLU, HumanEval).
  • Menschliche Evaluierung: Manuelle Bewertung (zeitaufwändig aber genau).
  • Geschäftsmetriken: Verbessert Modell tatsächliche Geschäftsergebnisse?

Häufige Fehler

  • Pre-Training ohne ausreichend Daten. <10B Tokens ist verschwendete Rechenleistung. Fine-Tune stattdessen.
  • Keine ordentliche Evaluierung. Nur Trainingsverlust ist irreführend. Test auf unsichtbaren Daten.
  • Erwartet, dass benutzerdefiniertes Modell GPT-4 passt. Lücke zwischen offenen und Frontier-Modellen ist groß.
  • Inferenzkosten ignorieren. Größere benutzerdefinierte Modelle = höhere Inferenzkosten. Trade-off bedenken.
  • GGUF-Konvertierungsschritt überspringen. Nach Fine-Tuning mit Unsloth oder HuggingFace ist Ihr Modell in PyTorch/Safetensors-Format. Ollama und llama.cpp benötigen GGUF. Verwenden Sie llama.cpp `convert_hf_to_gguf.py` zum Konvertieren. Ohne diesen Schritt kann Ihr Fine-Tuned-Modell nicht in Ollama, LM Studio oder einem GGUF-basierten Inference-Engine ausgeführt werden. Immer während Konvertierung quantisieren (Q4_K_M empfohlen), um Dateigröße 3–4× zu reduzieren.

Häufig gestellte Fragen

Kann Fine-Tuning die Qualität eines vortrainierten Modells erreichen?

Fine-Tuned-Modelle können die Leistung des Basismodells in Ihrer spezifischen Domäne übertreffen, entsprechen aber nicht der Breite des Wissensinhalts eines größeren vortrainierten Modells. Llama 3.1 8B, das auf juristische Dokumente fine-tuned ist, wird Llama 3.1 70B bei juristischen Aufgaben übertreffen, aber bei allgemeinem Wissen unterlegen sein. Fine-Tune, wenn domänenspezifische Genauigkeit wichtiger ist als Breite.

Wie viele Daten brauche ich für effektives Fine-Tuning?

Mindestens 500–1.000 Beispiele für ein nutzbares Modell; 5.000+ für Produktionsqualität. Datenqualität ist wichtiger als Menge – 1.000 hochwertige Beispiele schlagen 50.000 minderwertige. Verwenden Sie LoRA für kleine Datensätze (500–2.000 Beispiele) und vollständiges Fine-Tuning nur mit 10.000+ Beispielen.

Was ist der Unterschied zwischen LoRA und vollständigem Fine-Tuning?

LoRA (Low-Rank Adaptation) aktualisiert nur einen kleinen Bruchteil der Gewichte (~1–2% der Modellgröße), macht es 4× schneller und benötigt 80–90% weniger VRAM. Vollständiges Fine-Tuning aktualisiert alle Gewichte und liefert marginal bessere Ergebnisse (~2–5% Genauigkeitsverbesserung), erfordert aber erhebliche Rechenressourcen. Verwenden Sie LoRA für die meisten Projekte; vollständiges Fine-Tuning nur, wenn Sie das Budget haben.

Wann sollte ich Pre-Training statt Fine-Tuning in Betracht ziehen?

Nur wenn: (1) Sie >10 Milliarden Tokens eindeutiger Daten haben, (2) Fine-Tuning konsistent Ihr Genauigkeitsziel nicht erreicht, (3) Budget >50.000 € ist und (4) Sie ein proprietäres Modell für Wettbewerbsvorteil benötigen. Für 99% der Organisationen ist Fine-Tuning die richtige Wahl.

Wie beurteile ich, ob mein benutzerdefiniertes Modell produktionsreif ist?

Testen Sie in 3 Dimensionen: (1) aufgabenspezifische Metriken (Genauigkeit, F1, BLEU), (2) Benchmark-Vergleich (auf MMLU oder HumanEval laufen, um mit Basismodell zu vergleichen), (3) Geschäftsmetriken (verbessert es tatsächliche Ergebnisse?). Wenn Ihr Fine-Tuned-Modell das Basismodell bei Ihrer Aufgabe um 5–10% übertrifft, ist es produktionsreif.

Kann ich Fine-Tuning mit Prompt-Engineering kombinieren?

Ja – das ist Best Practice. Fine-Tuning behandelt strukturelle Änderungen (Domänensprache, Format); Prompt-Engineering behandelt spezifische Anwendungsfälle. Ein Fine-Tuned Legal-Modell + gutes Prompt-Engineering wird beide zusammen übertreffen. Starten Sie mit Prompt-Optimierung (kostenlos), dann Fine-Tune, falls nötig.

Welches Framework sollte ich zum Fine-Tuning verwenden?

Unsloth (schnellste), Axolotl (flexibel) und Hugging Face Transformers (offiziell, umfassend dokumentiert) sind die Hauptoptionen. Unsloth empfohlen für Geschwindigkeit; Axolotl für Multi-GPU-Setups. Alle unterstützen LoRA und funktionieren mit Ollama zur Bereitstellung.

Wie weiß ich, ob Pre-Training die Kosten wert ist?

Machen Sie diese Berechnung: (1) Schätzen Sie die Fine-Tuning-Qualitätslücke bei Ihrer Aufgabe (z.B. Fine-Tuning erreicht 85%, Pre-Training könnte 92% erreichen). (2) Quantifizieren Sie Geschäftswert pro Genauigkeitspunkt (z.B. +1% Genauigkeit = €10k Umsatz). (3) Wenn (€50k Pre-Training-Kosten) < (Wert von 7% Verbesserung), dann Pre-Train. Falls nicht, Fine-Tune.

Muss ich bei der Verwendung von Unsloth die DSGVO beachten?

Ja. DSGVO Artikel 28 erfordert Verarbeitungsverträge, wenn Unsloth als Dienstleister handelt. Lokales Fine-Tuning auf Ihrer Infrastruktur erfüllt Datenschutz-Anforderungen besser. Bei Fine-Tuning mit personenbezogenen Daten: anonymisieren Sie wo möglich, dokumentieren Sie Verarbeitungszwecke, und führen Sie Datenschutz-Folgeabschätzungen durch. BSI-Grundschutz fordert Audits für ML-Systeme in Kritischen Infrastrukturen.

Ist Fine-Tuning für den deutschen Mittelstand geeignet?

Ja, sehr. Fine-Tuning kostet 100–500 € und 1–4 Stunden – ideal für KMUs. Viele Mittelständler haben fachspezifische Daten (Verträge, Kundeninteraktionen, Qualitätskontrolle), die Fine-Tuning rentabel machen. IT-Sicherheitsstandards (BSI-Grundschutz) werden durch lokales Fine-Tuning erfüllt. Deutsche Unternehmen in Finanz-, Rechts- und Ingenieurwesen profitieren besonders.

Rechtliche und regulatorische Erwägungen

Benutzerdefinierte Modelle präsentieren Datenschutz- und regulatorische Auswirkungen, die nach Region variieren. Verstehen Sie vor Bereitstellung eines Fine-Tuned oder vortrainierten Modells Ihre regionalen Compliance-Anforderungen:

  • DSGVO & Datenschutz (Europa): DSGVO Artikel 28 fordert Verarbeitungsverträge bei Verwendung von Diensten wie Unsloth in der Cloud. Lokales Fine-Tuning auf Ihrer Infrastruktur erfüllt Datenschutz-Anforderungen besser. Artikel 5 (Dateminimierung) rät zum Fine-Tuning auf anonymisierten oder synthetischen Daten, wenn möglich. Führen Sie Datenschutz-Folgeabschätzungen durch. Dokumentieren Sie Verarbeitungszwecke und Aufbewahrungsrichtlinien.
  • BSI-Grundschutz & Kritische Infrastrukturen (Deutschland/DACH): BSI-Grundschutz fordert für IT-Systeme in Kritischen Infrastrukturen (Energie, Wasser, Gesundheit, Finanz) Sicherheitscertifizierungen. Custom LLMs, die für diese Sektoren entwickelt werden, erfordern: (1) Audits des Fine-Tuning-Prozesses, (2) Versionskontrolle und Modellverzeichnis, (3) sichere Speicherung von Trainingsdaten, (4) regelmäßige Audits. Lokales Fine-Tuning ist bevorzugt.
  • Mittelstand & KMU-Besonderheiten: Kleine Unternehmen haben oft weniger Ressourcen für Compliance. Empfehlungen: Fine-Tune auf anonymisierten Kundendaten (wenn möglich), halten Sie Audit-Logs, verwenden Sie lokale Infra für Datensensitive Modelle, und dokumentieren Sie Modellversionen.

Quellen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Eigene lokale LLMs erstellen 2026: Fine-Tuning $500 vs Pre-Training $50K