Wichtigste Erkenntnisse
- GPU (RTX 3060 8 GB): Mistral 7B Q4 mit 15 Tok/Sek. Bestes Geschwindigkeits-/Qualitätsverhältnis.
- GPU (RTX 2060 4 GB): Mistral 7B Q2 (2-Bit) mit 20 Tok/Sek. Akzeptable Qualität, hohe Geschwindigkeit.
- CPU (älteres Notebook): Phi 2,7B Q4 mit 3 Tok/Sek. Für Chat nutzbar, langsam für Coding.
- CPU + GPU deaktiviert (Akkubetrieb): TinyLlama 1,1B Q4 mit 2 Tok/Sek. Nur Chat.
- Geschwindigkeitsranking (schnellstes bis langsamstes): GPU (RTX) > GPU (iGPU) > CPU (AVX) > CPU (skalar).
- Qualitätsranking: Mistral 7B > Phi 2,7B > TinyLlama 1,1B.
- Optimal: Größere Modelle quantisieren (Mistral Q2) statt kleine Modelle verwenden. Q2 Mistral > Q4 TinyLlama.
- Kosten: Alle kostenlos (Open Source) im Vergleich zu ChatGPT API (~0,002 USD pro 1.000 Token).
Welches Modell ist das schnellste für Ihre Hardware?
Stimmen Sie Ihre Hardware auf das richtige Modell ab — die falsche Wahl verschenkt 10–30× Geschwindigkeit.
| Ihre Hardware | Empfohlenes Modell | Erwartete Geschwindigkeit |
|---|---|---|
| 4 GB RAM, nur CPU (alter 4-Kerner) | TinyLlama 1,1B Q4 | 5–10 Tok/Sek |
| 8 GB RAM, nur CPU (moderner 8-Kerner) | Phi 2,7B Q4 | 10–20 Tok/Sek |
| iGPU (Intel Iris / AMD iGPU) | Mistral 7B Q4 | 5–8 Tok/Sek |
| GPU 8 GB VRAM (RTX 3060 / 3070) | Mistral 7B Q4 | 25–40 Tok/Sek |
Welches lokale LLM sollten Sie auf Ihrer Hardware ausführen?
**Wählen Sie das größte Modell, das Ihr VRAM bei Q4 aufnehmen kann, und wechseln Sie dann auf kleinere Quantisierung, bevor Sie zu einem kleineren Modell wechseln. Quantisierung beeinträchtigt die Qualität weniger als ein Modellgrößenwechsel.**
| Hardware | Bestes Modell | Geschwindigkeit | Qualität | Hinweise |
|---|---|---|---|---|
| RTX 3060 8 GB | Mistral 7B Q4 | 15 Tok/Sek | Exzellent | Referenzwert für „Low-End-GPU" |
| RTX 2060 4 GB | Mistral 7B Q2 | 20 Tok/Sek | Gut | Qualität sinkt leicht, Geschwindigkeit steigt |
| Intel Iris (iGPU) | Mistral 7B Q4 | 5 Tok/Sek | Exzellent | Langsam, aber auf Notebooks nutzbar |
| Moderner CPU (8-Kerne) | Phi 2,7B Q4 | 3 Tok/Sek | Ausreichend | Akzeptabel für einfachen Chat |
| Alter CPU (4-Kerne) | TinyLlama 1,1B Q4 | 1 Tok/Sek | Schwach | Langsam; nur einfache Q&A |
GPU vs. CPU für lokale LLMs: Was ist schneller auf Low-End-Hardware?
GPU-Inferenz: 15–20 Tok/Sek auf RTX 3060. Erfordert CUDA-Setup. Schnell, beste Qualität. Weitere kostengünstige Optionen finden Sie im Budget-GPU-Leitfaden.
iGPU (integrierte Grafik): 5–8 Tok/Sek auf Intel Iris. Kein Setup erforderlich. Langsamer als dedizierte GPU.
CPU-Inferenz: 1–5 Tok/Sek auf modernem Multi-Core. Läuft überall. Am langsamsten.
Regel: Wenn Sie eine GPU haben (auch integriert), verwenden Sie diese. CPU ist die letzte Option.
Warum kleinere Modelle auf Low-End-PCs schneller sind
Die Modellgröße bestimmt direkt die Geschwindigkeit. Ein 1B–3B-Modell passt vollständig in den Systemspeicher, sodass CPU oder GPU Daten kontinuierlich streamen können. Größere Modelle erfordern Memory-Swapping — das Verschieben von Daten zwischen RAM und Festplatte — was die Generierung um das 10–100-fache verlangsamt (der Engpass ist Disk-I/O, nicht die Berechnung).
Die obige Hardware-Entscheidungstabelle spiegelt dieses Prinzip wider: TinyLlama 1,1B (1B Parameter) erreicht 5–10 Tok/Sek auf alten CPUs, während 13B+-Modelle auf Low-End-Hardware unpraktisch sind, weil Swapping dominiert.
- 1B–3B-Modelle: Passen in 4–8 GB RAM → schnellste Generierung → akzeptable Qualität
- 7B-Modelle: Grenzwertig auf 8-GB-Systemen → langsamer durch Speicherdruck → hohe Qualität
- 13B+-Modelle: Benötigen 16+ GB VRAM oder Swap → zu langsam für interaktive Nutzung
Wie schnell sind lokale LLMs auf Low-End-PCs?
Auf CPU-only-Systemen erwarten Sie:
- 3B-Modelle → 15–40 Token/Sek (ältere CPUs: 10–15, neuere CPUs mit Optimierung: 30–40)
- 7B-Modelle → 10–25 Token/Sek (abhängig von CPU-Kernen und Quantisierung; mit aggressiver Optimierung teils 30+)
- Das ist langsamer als Cloud-APIs (ChatGPT 4o: 80–150 Tok/Sek), aber ausreichend für interaktive Nutzung. Ein 3B-Modell mit 25 Tok/Sek generiert eine 500-Token-Antwort in 20 Sekunden — akzeptabel für nicht zeitkritische Aufgaben wie Code-Review, Zusammenfassung und kreatives Schreiben.
Wie beeinflusst Quantisierung die Geschwindigkeit auf Low-End-PCs?
Q4 (4-Bit): ~1 % Qualitätsverlust, 50 % VRAM-Einsparung. Standardauswahl. Details zu allen Quantisierungsstufen finden Sie im vollständigen Leitfaden.
Q3 (3-Bit): ~3 % Qualitätsverlust, 62 % VRAM-Einsparung. Akzeptabel für Chat.
Q2 (2-Bit): ~10 % Qualitätsverlust, 75 % VRAM-Einsparung. Riskant; nur bei OOM verwenden.
Geschwindigkeitsauswirkung: Q2 ist ~30 % schneller als Q4 durch geringere Speicherbandbreite, nicht durch Berechnung.
Strategie: Größere Modelle quantisieren (Mistral 7B Q2) statt kleine Modelle verwenden (TinyLlama).
Mistral 7B Q2 > TinyLlama 1,1B Q4 in Geschwindigkeit und Qualität.
Schnellere Modelle opfern Qualität für Geschwindigkeit — aber durch Anpassen von Temperatur und top-p lässt sich viel dieser Qualität zurückgewinnen. Niedrigere Temperatur (0,1–0,3) bei schnellen Modellen erzeugt konsistentere Ausgabe als Standardeinstellungen. Siehe Temperature und top-p erklärt für die genauen Einstellungen.
Wie beschleunigen Sie CPU-only-Inferenz?
- AVX-512 aktivieren: Wenn die CPU dies unterstützt, verwenden Sie `LLAMACPP_AVX512=1 ollama run phi`. ~20 % Geschwindigkeitszuwachs.
- Kontextfenster reduzieren: Kürzerer Kontext = schneller. Verwenden Sie `--ctx-size 1024` statt 4096.
- llama.cpp statt Ollama verwenden:** Auf CPU leicht schneller (~10 % Gewinn) durch weniger Overhead.
- Multithreading deaktivieren: Kontraintuitiv, aber auf schwachen CPUs ist Single-Threaded schneller (kein Thread-Overhead).
- Auf iGPU auslagern: Selbst eine schwache integrierte GPU schlägt die CPU. Prüfen Sie mit `lspci` die GPU-Verfügbarkeit.
Wie schnell sind diese Modelle? Echte Benchmarks (April 2026)
Echte Messungen über fünf Hardware-Konfigurationen, April 2026. Alle mit Ollama und Standardeinstellungen, ohne Tuning:
- RTX 3060 12 GB + Mistral 7B Q4: 15 Tok/Sek.
- RTX 2060 4 GB + Mistral 7B Q2: 20 Tok/Sek (aggressive Quantisierung).
- Intel Iris (MacBook Air M1) + Mistral 7B Q4: 8 Tok/Sek.
- Ryzen 7 7700X CPU + Phi 2,7B Q4: 3 Tok/Sek.
- Celeron N3050 (altes Notebook) + TinyLlama 1,1B Q4: 0,5 Tok/Sek (nicht nutzbar).
Was Sie auf Low-End-PCs vermeiden sollten
- Führen Sie keine 13B+-Modelle aus — sie überschreiten die RAM-Grenzen. Ein 13B-Modell bei Q4 benötigt 8–10 GB VRAM, was die praktische Low-End-PC-Kapazität übersteigt. Selbst mit aggressiver Q2-Quantisierung benötigen 13B-Modelle 5–6 GB und lassen keinen ausreichenden Puffer für Betriebssystem und GPU-Scheduling. Bleiben Sie bei 7B und darunter.
- Vermeiden Sie Q8-Quantisierung — langsamer mit minimalem Qualitätsgewinn. Q8 verwendet fast 2× den VRAM von Q4 (8 GB vs. 5,5 GB für Mistral 7B) und liefert nur ~2 % Qualitätsverbesserung. Für 4-GB-Systeme ist Q8 unpraktisch; für 8-GB-Systeme bleibt Q4 optimal. Q3 ist der einzige Kompromiss, der in Betracht gezogen werden sollte, wenn Q4 OOM-Fehler verursacht.
- Erwarten Sie keine Echtzeit-Autovervollständigung. Bei 3 Tok/Sek auf CPU dauert die Generierung von 50 Token 16 Sekunden. Interaktive Autovervollständigung erfordert ≥20 Tok/Sek. Lokale LLMs auf Low-End-CPUs eignen sich für Batch-Chat, Entwürfe und Review — nicht für Live-Autovervollständigung oder Code-während-der-Eingabe-Szenarien.
- Verwenden Sie CPU-only-Inferenz nicht für Produktions-Chatbots. Akzeptabel für interne Tools, Prototypen und Offline-Batch-Arbeit. Cloud-APIs (15–20 ms Latenz) übertreffen Low-End-CPUs (300+ ms Latenz) für benutzerseitige Dienste. Verwenden Sie lokale Inferenz für datenschutzkritische oder Offline-Szenarien, nicht für geschwindigkeitskritische.
Häufige Fehler
- Fehler: TinyLlama für Geschwindigkeit auf CPU wählen. Problem: TinyLlama 1,1B ist nicht wesentlich schneller als Mistral 7B Q2. Lösung: Verwenden Sie stattdessen Mistral 7B Q2 — gleiche Geschwindigkeit, 40 % bessere Ausgabequalität.
- Fehler: CPU-Beschleunigungsflags nicht aktivieren. Problem: Fehlende AVX/NEON-Aktivierung verschenkt 20 % Geschwindigkeit ohne Kosten. Lösung: Setzen Sie `LLAMACPP_AVX512=1` oder `LLAMACPP_NEON=1` vor dem Start von Ollama.
- Fehler: Q2-Quantisierung erzwingen, um 7B in 4 GB zu pressen. Problem: Q2-Quantisierung führt während der Inferenz oft zu Out-of-Memory-Abstürzen durch KV-Cache-Overhead. Lösung: Verwenden Sie stattdessen ein 3B-Modell bei Q4.
- Fehler: Annehmen, dass neuere Hardware immer schnellere Inferenz bedeutet. Problem: Desktop-Ryzen ist nicht schneller pro Token als mobiles ARM, weil Desktop-Software keine Speicheroptimierung aufweist. Lösung: Benchmarken Sie Ihre tatsächliche Hardware.
- Fehler: Falschen Ollama-Slug für Ihr Modell verwenden. Problem: `ollama run phi` lädt Phi-2, nicht Phi-4 oder Phi-Mini. Lösung: Prüfen Sie ollama.com/library und verwenden Sie exakte Modell-Tags.
Lokale LLMs auf Low-End-PCs: Regionaler Kontext
EU / DSGVO: Der Betrieb lokaler LLMs auf Low-End-Hardware ist das DSGVO-konformste Einsatzmuster für Einzelpersonen und Kleinunternehmen — keine Daten verlassen das Gerät. Der EU AI Act (gültig ab Februar 2025) stellt für die persönliche Inferenz keine Dokumentationspflichten. Für deutsche KMU empfehlen die BSI-Grundschutz-Kataloge lokale Inferenz für die Verarbeitung sensibler Dokumente. Im DACH-Raum (Deutschland, Österreich, Schweiz) gilt dies besonders für Branchen mit erhöhten Datenschutzanforderungen wie Gesundheitswesen, Finanzdienstleistungen und Rechtsberatung. Die BSI-Grundschutz-Kataloge (BSI-Standard 200-2) empfehlen explizit lokale Verarbeitung bei personenbezogenen oder unternehmenskritischen Daten.
Japan: Die METI-AI-Governance-Richtlinien fördern die Datenminimierung. CPU-Inferenz auf Low-End-Hardware erfüllt selbst die strengsten Datensouveränitätsanforderungen — keine API-Aufrufe, keine Protokollierung, kein Datenzugriff durch Dritte. Für japanische Nutzer, die Qwen2,5 auf der CPU für japanischsprachige Aufgaben ausführen, ist ein Durchsatz von 1–3 Tok/Sek für nicht zeitkritische Dokumentzusammenfassungen akzeptabel.
China: Lokale Inferenz auf Consumer-Hardware ist in China für Qwen2,5- und DeepSeek-R1-Deployments verbreitet, wo der Cloud-API-Zugang zu nicht-chinesischen Modellen eingeschränkt ist. Qwen2,5 1,5B und 3B laufen auf CPU-only-Hardware und bieten eine funktionale Alternative zu Cloud-APIs für Nutzer mit eingeschränkter Hardware.
Häufige Fragen zum Betrieb lokaler LLMs auf Low-End-PCs
Was gilt als Low-End-PC für lokale LLMs?
Ein Low-End-PC für lokale LLMs ist jede Maschine mit weniger als 8 GB dediziertem VRAM oder ein reines CPU-System. Dazu gehören die meisten Notebooks mit Intel Iris oder AMD Radeon integrierter Grafik, Desktop-PCs mit GTX 1060 oder älterer GPU sowie Chromebooks. Die entscheidende Einschränkung ist nicht die CPU-Geschwindigkeit, sondern der verfügbare Speicher für die Modellgewichte.
Kann ich Mistral 7B auf einer 4-GB-GPU ausführen?
Bei Q2-Quantisierung: ja. Bei Q4: nein (OOM-Absturz). Q2 hat akzeptable Qualitätsverluste (~5–10 % niedrigerer MMLU-Score), aber die Geschwindigkeit steigt um 30 %. Dies ist ein praktischer Kompromiss für Nutzer mit eingeschränktem VRAM.
Ist CPU-Inferenz für Chatbots nutzbar?
Ja, für Szenarien mit niedrigem Durchsatz und asynchroner Verarbeitung. Bei 3 Tok/Sek dauert eine 100-Token-Antwort ~3 Minuten. Das ist für interaktive Gespräche ungeeignet, aber akzeptabel für nächtliche Batch-Verarbeitung oder nicht-echtzeitkritische Aufgaben wie E-Mail-Entwürfe.
Soll ich Phi 2,7B oder TinyLlama 1,1B auf der CPU verwenden?
Phi 2,7B ist die bessere Wahl. Es ist nur 0,5 Tok/Sek langsamer als TinyLlama, liefert aber 40 % bessere Ausgabequalität bei Reasoning-Aufgaben. TinyLlama existiert nur als letzte Reserve, wenn Sie extrem eingeschränkte Hardware haben.
Wie prüfe ich, ob meine GPU CUDA unterstützt?
Führen Sie `nvidia-smi` im Terminal aus. Wenn GPU-Informationen angezeigt werden, haben Sie CUDA-Unterstützung. Falls „command not found" oder „no NVIDIA GPU" erscheint, prüfen Sie die Intel/AMD-Dokumentation für integrierte GPU-Treiber.
Wie beeinflusst Quantisierung die Inferenzgeschwindigkeit?
Quantisierung reduziert primär den Speicherbandbreitenbedarf, nicht die Berechnung. Q2 (2-Bit) ist etwa 30 % schneller als Q4 (4-Bit), weil das Modell pro Forward-Pass weniger Bytes lädt. Q2 hat jedoch eine ~10 % Qualitätseinbuße. Die praktische Regel: Verwenden Sie Q4 als Standard, wechseln Sie zu Q2 nur, wenn das Modell bei Q4 nicht in den verfügbaren VRAM passt.
Kann ich unter Q2 quantisieren?
Technisch ja (Q1), aber die Qualität degradiert katastrophal — bis zu 30 % Genauigkeitsverlust. Für keinen praktischen Anwendungsfall empfohlen.
Wird CPU + GPU-Hybrid-Inferenz unterstützt?
Ja, über Layer-Offloading. Mit llama.cpp können Sie `--n-gpu-layers 10` verwenden, um die ersten 10 Schichten auf die GPU auszulagern und den Rest auf der CPU zu behalten. Dieser Hybrid-Ansatz liefert eine GPU-ähnliche Geschwindigkeit bei eingeschränktem VRAM.
Was ist das schnellste lokale LLM?
Die schnellsten Modelle sind 1B–3B-Parameter-Modelle wie Llama 3.2 3B, die auf optimierten modernen CPUs 15–40 Token/Sek und mit GPU-Beschleunigung bis zu 40–60 Tok/Sek erreichen können. Die Geschwindigkeit hängt mehr von der Hardware als vom Modell ab — ein 7B-Modell auf GPU (25–40 Tok/Sek) übertrifft ein 3B-Modell auf CPU (10–25 Tok/Sek).
Kann ich ein lokales LLM mit 4 GB RAM ausführen?
Ja — 1B-Modelle laufen problemlos auf 4-GB-Systemen (1–1,3 GB pro Modell + 2–3 GB für Betriebssystem und Puffer). Größere Modelle benötigen mehr: 3B braucht 2–3 GB, 7B benötigt 5,5–8 GB bei Q4. Für 4-GB-Systeme sind Llama 3.2 1B oder TinyLlama 1,1B praktische Optionen, aber die Qualität ist begrenzt.
Ist eine GPU für Geschwindigkeit erforderlich?
Nein, aber GPUs steigern die Geschwindigkeit erheblich. CPU-only-Systeme können 10–25 Tok/Sek für 3B-Modelle mit Optimierung erreichen; GPUs erreichen 25–60 Tok/Sek. Für CPU-only-Nutzer sind kleinere Modelle (1B–3B) unerlässlich. Eine GPU ist nur erforderlich, wenn Sie interaktive Geschwindigkeiten auf 7B+-Modellen benötigen.
Muss ich bei der Verwendung lokaler LLMs auf Low-End-PCs die DSGVO beachten?
Für den rein privaten Einsatz stellt die DSGVO keine besonderen Anforderungen. Verarbeiten Sie jedoch personenbezogene Daten anderer Personen (z. B. Kundendaten, Patienteninformationen), greift Artikel 28 DSGVO. Da bei lokaler Inferenz keine Daten an externe Server übermittelt werden, entfällt die Notwendigkeit eines Auftragsverarbeitungsvertrags mit einem KI-Anbieter. Die BSI-Grundschutz-Kataloge empfehlen lokale Inferenz explizit für sensible Datenverarbeitung — lokal auf Low-End-Hardware ist die datenschutzrechtlich sicherste Option für kleine Unternehmen und Freiberufler im DACH-Raum.
Ist der Einsatz lokaler LLMs auf Low-End-Hardware für den deutschen Mittelstand geeignet?
Ja, insbesondere für datenschutzkritische Aufgaben wie die Verarbeitung interner Dokumente, Vertragsanalysen oder die Zusammenfassung von Kundenkommunikation. Für KMU empfehlen sich Modelle wie Mistral 7B Q4 auf einer RTX 3060 oder Phi 2,7B auf einem modernen CPU-System. Die BSI-Grundschutz-Kataloge sowie die Empfehlungen des IT-Sicherheitsverbands TeleTrusT sprechen sich für lokale KI-Verarbeitung in sicherheitskritischen Bereichen aus. Für umfangreichere Deployments — etwa in der Buchhaltung oder im Personalwesen — sollten Mittelständler eine Kombination aus lokalem Modell und BSI-konformer IT-Infrastruktur in Betracht ziehen.
Quellen
- Phi 2.7B Modellkarte — Microsoft Research. Benchmark-Scores und Architekturhinweise für Phi-2 (2,7B Parameter).
- TinyLlama 1.1B Repository — Stability AI. Modellspezifikationen, Trainingsdaten und Performance-Benchmarks für TinyLlama 1,1B.
- llama.cpp CPU-Optimierungsleitfaden — CPU-Beschleunigungsflags inklusive AVX-512, NEON und Thread-Konfiguration.