Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Eigene lokale LLMs erstellen 2026: Fine-Tuning vs. Pre-Training mit Unsloth und Ollama
Fortgeschrittene Techniken

Eigene lokale LLMs erstellen 2026: Fine-Tuning vs. Pre-Training mit Unsloth und Ollama

·12 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Eigene lokale LLMs erstellen bedeutet, ein bestehendes Modell zu Fine-Tuning oder von Grund auf zu pre-trainieren. Im April 2026 ist Fine-Tuning mit LoRA auf Consumer-Hardware praktikabel: 500 Beispiele, 8 GB VRAM, 1–2 Stunden, 100–500 €. Pre-Training kostet 50.000–500.000 € und benötigt 10 Milliarden+ Tokens – begründet nur für seltene proprietäre Bedürfnisse. Dieser Leitfaden behandelt beide Ansätze: den 7-Schritt-Fine-Tuning-Pfad mit Unsloth, die Entscheidungsmatrix für Fine-Tuning vs. Pre-Training vs. RAG und die Bereitstellung auf Ollama.

Eigene lokale LLMs erstellen bedeutet, ein bestehendes Modell zu Fine-Tuning oder von Grund auf zu pre-trainieren. Im April 2026 ist Fine-Tuning mit LoRA auf Consumer-Hardware praktikabel: 500 Beispiele, 8 GB VRAM, 1–2 Stunden, 100–500 €. Pre-Training kostet 50.000–500.000 € und benötigt 10 Milliarden+ Tokens – begründet nur für seltene proprietäre Bedürfnisse. Dieser Leitfaden behandelt beide Ansätze: den 7-Schritt-Fine-Tuning-Pfad mit Unsloth, die Entscheidungsmatrix für Fine-Tuning vs. Pre-Training vs. RAG und die Bereitstellung auf Ollama.

Präsentation: Eigene lokale LLMs erstellen 2026: Fine-Tuning vs. Pre-Training mit Unsloth und Ollama

Die Präsentationsfolien behandeln: Fine-Tuning vs. Pre-Training Analyse, 7-Schritt-Unsloth-Pfad, GGUF-Bereitstellung und Produktionsreife-Metriken. Als Referenzkarte zum Custom-LLM-Fine-Tuning herunterladen.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • Fine-Tuning (empfohlen): 8 GB VRAM, 500+ Trainingsbeispiele, 1–4 Stunden. Kosten: 100–500 €.
  • Pre-Training: 8+ GPUs, 100B+ Tokens, Wochen Training. Kosten: 50.000–500.000 €.
  • Die meisten Organisationen sollten Fine-Tunen, nicht Pre-Trainieren. Sinkende Erträge für Custom Pre-Training.
  • Beste Methode: Beginnen Sie mit Fine-Tuning auf Ihren Domänendaten, evaluieren Sie dann, ob Pre-Training begründet ist.
  • Ab April 2026 ist Pre-Training selten begründet, außer Sie benötigen proprietäres Modell.

Fine-Tuning vs. Pre-Training

AspektFine-TuningPre-Training
Trainingszeit1–4 StundenWochen–Monate
VRAM erforderlich8 GB100+ GB (Multi-GPU)
Daten erforderlich500–5.000 Beispiele100B+ Tokens
Kosten100–500 €50.000–500.000 €
AnpassungFachwissenProprietäres Modell
Wann verwenden99% der FälleSeltene, spezialisierte Bedürfnisse
Fine-Tuning (1–4 Stunden, 100–500 €, 8 GB VRAM) vs. Pre-Training (Wochen–Monate, 50.000–500.000 €, 100+ GB): Vergleich von Trainingszeit, Kosten, Datenanforderungen und Anwendungsfall.
Fine-Tuning (1–4 Stunden, 100–500 €, 8 GB VRAM) vs. Pre-Training (Wochen–Monate, 50.000–500.000 €, 100+ GB): Vergleich von Trainingszeit, Kosten, Datenanforderungen und Anwendungsfall.

Fine-Tuning-Pfad (Empfohlen)

  1. 1
    Sammeln Sie 500–5.000 domänenspezifische Beispiele (Qualität ist wichtig).
  2. 2
    Wählen Sie Basismodell (Llama 3.3 8B, Qwen 7B, etc.).
  3. 3
    Verwenden Sie LoRA für effizientes Training (4× schneller, gleiche Qualität).
  4. 4
    Trainieren Sie 3–5 Epochen auf GPU.
  5. 5
    Evaluieren Sie auf Test-Set (Genauigkeit, Recall, benutzerdefinierte Metriken).
  6. 6
    Zusammenführen von LoRA-Adapter mit Basismodell.
  7. 7
    Bereitstellung als Produktionsmodell.
7-Schritt-Fine-Tuning-Workflow: Daten sammeln → Basismodell wählen → mit LoRA trainieren (3–5 Epochen, 8 GB VRAM) → evaluieren → zusammenführen → in GGUF konvertieren → auf Ollama bereitstellen. Gesamtzeit: 1–4 Stunden.
7-Schritt-Fine-Tuning-Workflow: Daten sammeln → Basismodell wählen → mit LoRA trainieren (3–5 Epochen, 8 GB VRAM) → evaluieren → zusammenführen → in GGUF konvertieren → auf Ollama bereitstellen. Gesamtzeit: 1–4 Stunden.

LoRA vs. vollständiges Fine-Tuning: Welches wählen?

LoRA (Low-Rank Adaptation) aktualisiert nur 1–2% der Modellgewichte, macht es 4× schneller und benötigt 80–90% weniger VRAM als vollständiges Fine-Tuning. Vollständiges Fine-Tuning aktualisiert alle Gewichte und liefert marginal bessere Ergebnisse (2–5% Genauigkeitsverbesserung), erfordert aber 64+ GB VRAM und erhebliche Rechenressourcen.

LoRA (4× schneller, 8 GB VRAM, 95–98% Genauigkeit) vs. vollständiges Fine-Tuning (Basisgeschwindigkeit, 64+ GB VRAM, +2–5% Gewinn): Geschwindigkeit-Genauigkeit Trade-off und VRAM-Anforderungsvergleich.
LoRA (4× schneller, 8 GB VRAM, 95–98% Genauigkeit) vs. vollständiges Fine-Tuning (Basisgeschwindigkeit, 64+ GB VRAM, +2–5% Gewinn): Geschwindigkeit-Genauigkeit Trade-off und VRAM-Anforderungsvergleich.

VRAM-Anforderungen nach Modellgröße

Nicht alle Modelle passen in 8 GB VRAM zum LoRA Fine-Tuning. Hier ist, was Sie ausführen können:

Fine-Tuning VRAM-Kompatibilität: 3B–8B Modelle ✓ funktionieren auf 8 GB, 13B ✓ funktioniert aber eng, 32B benötigt 64+ GB, 70B nicht durchführbar. LoRA addiert ~25% Overhead für Batch-Training.
Fine-Tuning VRAM-Kompatibilität: 3B–8B Modelle ✓ funktionieren auf 8 GB, 13B ✓ funktioniert aber eng, 32B benötigt 64+ GB, 70B nicht durchführbar. LoRA addiert ~25% Overhead für Batch-Training.

Bereitstellung Ihres benutzerdefinierten Modells auf Ollama

Nach Zusammenführung des LoRA-Adapters, Bereitstellung auf Ollama in 3 Schritten:

  1. 1
    Schritt 1 – In GGUF exportieren: Verwenden Sie llama.cpp-Konvertierungsskript, um Ihr zusammengeführtes Modell von PyTorch/Safetensors-Format in GGUF zu konvertieren. Dies ist wesentlich für Ollama- und llama.cpp-Kompatibilität. ```bash python convert_hf_to_gguf.py \ --model ./merged-model \ --outfile ./my-custom-model.gguf \ --outtype q4_k_m ```
  2. 2
    Schritt 2 – Ollama Modelfile erstellen: Definieren Sie System-Prompt, Parameter und Inferenz-Einstellungen Ihres Modells. ``` FROM ./my-custom-model.gguf SYSTEM "Sie sind ein [Ihre Domäne] Experte..." PARAMETER temperature 0,4 PARAMETER num_ctx 4096 ```
  3. 3
    Schritt 3 – Registrieren und ausführen: Laden Sie Ihr Modell in Ollama für lokale oder API-Zugriff. ```bash ollama create my-custom-model -f Modelfile ollama run my-custom-model ``` Ihr Fine-Tuned-Modell ist nun über Ollamas OpenAI-kompatible API unter localhost:11434 zugänglich – identisch mit jedem Standard-Ollama-Modell. Verwenden Sie es mit Continue.dev, Open WebUI oder Ihrer eigenen Anwendung über das Python/Node.js OpenAI SDK.

Pre-Training: Wann und warum

Pre-Training bedeutet Lernen aus Rohdaten (Bücher, Dokumente, Code). Nur begründet, wenn:

1. Sie >10 Milliarden Tokens eindeutiger, wertvoller Daten haben.

2. Vortrainierte Modelle konsistent bei Ihrer Domäne versagen.

3. Budget ist >50.000 € (realistisch).

4. Sie benötigen proprietäres Modell (Wettbewerbsvorteil).

Beispiel: Ein Genomics-Unternehmen mit 500 GB privater Forschungsdaten könnte custom Pre-Training begründen.

Entscheidungsmatrix: Welcher Ansatz?

Drei Hauptansätze für benutzerdefinierte Modelle. Wählen Sie basierend auf Ihren Daten, Budget und Zeitrahmen:

Entscheidungsmatrix: Verwenden Sie RAG, wenn Sie keine Trainingsdaten haben (€0), Fine-Tuning, wenn Sie 500+ Beispiele haben (€100–500, 1–4 Stunden), oder Pre-Training, wenn Sie 100B+ Tokens haben (€50.000–500.000, Wochen–Monate).
Entscheidungsmatrix: Verwenden Sie RAG, wenn Sie keine Trainingsdaten haben (€0), Fine-Tuning, wenn Sie 500+ Beispiele haben (€100–500, 1–4 Stunden), oder Pre-Training, wenn Sie 100B+ Tokens haben (€50.000–500.000, Wochen–Monate).

Domänenanpassungsstrategien

Verbessern Sie Modellleistung auf Ihrer Domäne, ohne vollständiges Pre-Training:

  • Fortgesetztes Pre-Training: Basismodell, trainiert auf Ihren Domänendaten (10B+ Tokens). Günstiger als vollständiges Pre-Training.
  • LoRA Fine-Tuning: Praktischste. Abstimmung auf 500+ Beispiele.
  • Prompt-Engineering: Verfassen Sie gute Prompts. Kostenlos, aber begrenzt.
  • RAG: Abrufen von Dokumenten, Bereitstellung von Kontext. Funktioniert ohne Umschulung.
  • Ensemble: Kombination mehrerer Modelle.

Evaluierungsmetriken

Modellqualität messen:

  • Aufgabenspezifische Metriken: Genauigkeit, F1-Score, BLEU (für Textgenerierung).
  • Benchmark-Tests: Ausführen auf Standardbenchmarks (MMLU, HumanEval).
  • Menschliche Evaluierung: Manuelle Bewertung (zeitaufwändig aber genau).
  • Geschäftsmetriken: Verbessert Modell tatsächliche Geschäftsergebnisse?

Häufige Fehler

  • Pre-Training ohne ausreichend Daten. <10B Tokens ist verschwendete Rechenleistung. Fine-Tune stattdessen.
  • Keine ordentliche Evaluierung. Nur Trainingsverlust ist irreführend. Test auf unsichtbaren Daten.
  • Erwartet, dass benutzerdefiniertes Modell GPT-4 passt. Lücke zwischen offenen und Frontier-Modellen ist groß.
  • Inferenzkosten ignorieren. Größere benutzerdefinierte Modelle = höhere Inferenzkosten. Trade-off bedenken.
  • GGUF-Konvertierungsschritt überspringen. Nach Fine-Tuning mit Unsloth oder HuggingFace ist Ihr Modell in PyTorch/Safetensors-Format. Ollama und llama.cpp benötigen GGUF. Verwenden Sie llama.cpp `convert_hf_to_gguf.py` zum Konvertieren. Ohne diesen Schritt kann Ihr Fine-Tuned-Modell nicht in Ollama, LM Studio oder einem GGUF-basierten Inference-Engine ausgeführt werden. Immer während Konvertierung quantisieren (Q4_K_M empfohlen), um Dateigröße 3–4× zu reduzieren.

Häufig gestellte Fragen

Kann Fine-Tuning die Qualität eines vortrainierten Modells erreichen?

Fine-Tuned-Modelle können die Leistung des Basismodells in Ihrer spezifischen Domäne übertreffen, entsprechen aber nicht der Breite des Wissensinhalts eines größeren vortrainierten Modells. Llama 3.3 8B, das auf juristische Dokumente fine-tuned ist, wird Llama 3.3 70B bei juristischen Aufgaben übertreffen, aber bei allgemeinem Wissen unterlegen sein. Fine-Tune, wenn domänenspezifische Genauigkeit wichtiger ist als Breite.

Wie viele Daten brauche ich für effektives Fine-Tuning?

Mindestens 500–1.000 Beispiele für ein nutzbares Modell; 5.000+ für Produktionsqualität. Datenqualität ist wichtiger als Menge – 1.000 hochwertige Beispiele schlagen 50.000 minderwertige. Verwenden Sie LoRA für kleine Datensätze (500–2.000 Beispiele) und vollständiges Fine-Tuning nur mit 10.000+ Beispielen.

Was ist der Unterschied zwischen LoRA und vollständigem Fine-Tuning?

LoRA (Low-Rank Adaptation) aktualisiert nur einen kleinen Bruchteil der Gewichte (~1–2% der Modellgröße), macht es 4× schneller und benötigt 80–90% weniger VRAM. Vollständiges Fine-Tuning aktualisiert alle Gewichte und liefert marginal bessere Ergebnisse (~2–5% Genauigkeitsverbesserung), erfordert aber erhebliche Rechenressourcen. Verwenden Sie LoRA für die meisten Projekte; vollständiges Fine-Tuning nur, wenn Sie das Budget haben.

Wann sollte ich Pre-Training statt Fine-Tuning in Betracht ziehen?

Nur wenn: (1) Sie >10 Milliarden Tokens eindeutiger Daten haben, (2) Fine-Tuning konsistent Ihr Genauigkeitsziel nicht erreicht, (3) Budget >50.000 € ist und (4) Sie ein proprietäres Modell für Wettbewerbsvorteil benötigen. Für 99% der Organisationen ist Fine-Tuning die richtige Wahl.

Wie beurteile ich, ob mein benutzerdefiniertes Modell produktionsreif ist?

Testen Sie in 3 Dimensionen: (1) aufgabenspezifische Metriken (Genauigkeit, F1, BLEU), (2) Benchmark-Vergleich (auf MMLU oder HumanEval laufen, um mit Basismodell zu vergleichen), (3) Geschäftsmetriken (verbessert es tatsächliche Ergebnisse?). Wenn Ihr Fine-Tuned-Modell das Basismodell bei Ihrer Aufgabe um 5–10% übertrifft, ist es produktionsreif.

Kann ich Fine-Tuning mit Prompt-Engineering kombinieren?

Ja – das ist Best Practice. Fine-Tuning behandelt strukturelle Änderungen (Domänensprache, Format); Prompt-Engineering behandelt spezifische Anwendungsfälle. Ein Fine-Tuned Legal-Modell + gutes Prompt-Engineering wird beide zusammen übertreffen. Starten Sie mit Prompt-Optimierung (kostenlos), dann Fine-Tune, falls nötig.

Welches Framework sollte ich zum Fine-Tuning verwenden?

Unsloth (bis zu 2× schneller, laut unsloth.ai), Axolotl (flexibel) und Hugging Face Transformers (offiziell, umfassend dokumentiert) sind die Hauptoptionen. Unsloth empfohlen für Geschwindigkeit; Axolotl für Multi-GPU-Setups. Alle unterstützen LoRA und funktionieren mit Ollama zur Bereitstellung.

Wie weiß ich, ob Pre-Training die Kosten wert ist?

Machen Sie diese Berechnung: (1) Schätzen Sie die Fine-Tuning-Qualitätslücke bei Ihrer Aufgabe (z.B. Fine-Tuning erreicht 85%, Pre-Training könnte 92% erreichen). (2) Quantifizieren Sie Geschäftswert pro Genauigkeitspunkt (z.B. +1% Genauigkeit = €10k Umsatz). (3) Wenn (€50k Pre-Training-Kosten) < (Wert von 7% Verbesserung), dann Pre-Train. Falls nicht, Fine-Tune.

Muss ich bei der Verwendung von Unsloth die DSGVO beachten?

Ja. DSGVO Artikel 28 erfordert Verarbeitungsverträge, wenn Unsloth als Dienstleister handelt. Lokales Fine-Tuning auf Ihrer Infrastruktur erfüllt Datenschutz-Anforderungen besser. Bei Fine-Tuning mit personenbezogenen Daten: anonymisieren Sie wo möglich, dokumentieren Sie Verarbeitungszwecke, und führen Sie Datenschutz-Folgeabschätzungen durch. BSI-Grundschutz fordert Audits für ML-Systeme in Kritischen Infrastrukturen.

Ist Fine-Tuning für den deutschen Mittelstand geeignet?

Ja, sehr. Fine-Tuning kostet 100–500 € und 1–4 Stunden – ideal für KMUs. Viele Mittelständler haben fachspezifische Daten (Verträge, Kundeninteraktionen, Qualitätskontrolle), die Fine-Tuning rentabel machen. IT-Sicherheitsstandards (BSI-Grundschutz) werden durch lokales Fine-Tuning erfüllt. Deutsche Unternehmen in Finanz-, Rechts- und Ingenieurwesen profitieren besonders.

Rechtliche und regulatorische Erwägungen

Benutzerdefinierte Modelle präsentieren Datenschutz- und regulatorische Auswirkungen, die nach Region variieren. Verstehen Sie vor Bereitstellung eines Fine-Tuned oder vortrainierten Modells Ihre regionalen Compliance-Anforderungen:

  • DSGVO & Datenschutz (Europa): DSGVO Artikel 28 fordert Verarbeitungsverträge bei Verwendung von Diensten wie Unsloth in der Cloud. Lokales Fine-Tuning auf Ihrer Infrastruktur erfüllt Datenschutz-Anforderungen besser. Artikel 5 (Dateminimierung) rät zum Fine-Tuning auf anonymisierten oder synthetischen Daten, wenn möglich. Führen Sie Datenschutz-Folgeabschätzungen durch. Dokumentieren Sie Verarbeitungszwecke und Aufbewahrungsrichtlinien.
  • BSI-Grundschutz & Kritische Infrastrukturen (Deutschland/DACH): BSI-Grundschutz fordert für IT-Systeme in Kritischen Infrastrukturen (Energie, Wasser, Gesundheit, Finanz) Sicherheitscertifizierungen. Custom LLMs, die für diese Sektoren entwickelt werden, erfordern: (1) Audits des Fine-Tuning-Prozesses, (2) Versionskontrolle und Modellverzeichnis, (3) sichere Speicherung von Trainingsdaten, (4) regelmäßige Audits. Lokales Fine-Tuning ist bevorzugt.
  • Mittelstand & KMU-Besonderheiten: Kleine Unternehmen haben oft weniger Ressourcen für Compliance. Empfehlungen: Fine-Tune auf anonymisierten Kundendaten (wenn möglich), halten Sie Audit-Logs, verwenden Sie lokale Infra für Datensensitive Modelle, und dokumentieren Sie Modellversionen.

Quellen

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs