Local LLMs
Updated
Beste lokale LLMs für Mai 2026 — aktuelle Ollama-Modelle, LM Studio vs Jan.ai Vergleich, VRAM- & GPU-Anforderungen (RTX 3060 etc.), Pull-Befehle und Hardware-Empfehlungen für Einsteiger.
Zusammenfassung
Führen Sie ein lokales Modell aus? Die Ausgabequalität hängt davon ab, wie Sie es prompten. Lernen Sie systematische Techniken, um bessere Antworten von jedem lokalen LLM zu erhalten.
PromptQuorum verbindet sich mit Ihrem lokalen LLM (Ollama, LM Studio, Jan AI) und sendet Ihren Prompt gleichzeitig an 25+ Cloud-Modelle — lokale vs. Cloud-Ergebnisse in einer Ansicht.
PromptQuorum kostenlos testen →| Modell | Pull-Befehl | VRAM | Hinweise |
|---|---|---|---|
| Llama 4 Scout 17B | ollama pull llama4:scout | 10 GB | Meta. Beste Gesamtqualität auf 12 GB VRAM |
| Qwen3 8B | ollama pull qwen3:8b | 5 GB | Alibaba. Top Coding + mehrsprachig, 8 GB GPU |
| Gemma 3 12B | ollama pull gemma3:12b | 8 GB | Google. Starkes Reasoning, läuft auf RTX 3060 |
| DeepSeek-R2 8B | ollama pull deepseek-r2:8b | 5 GB | DeepSeek. Beste für Mathe und Logik, 8 GB RAM |
| Merkmal | Ollama | LM Studio | Jan.ai |
|---|---|---|---|
| Oberfläche | Terminal (CLI) | Desktop-GUI | Desktop-GUI + Chat |
| API-Endpunkt | localhost:11434 | localhost:1234 | localhost:1337 |
| Modell-Browser | Nur CLI | Eingebaut | Eingebaut |
| Geeignet für | Entwickler, Automatisierung | Einsteiger, GUI-Nutzer | Privacy-first Chat |
| Einrichtungszeit | 2 Min | 5 Min | 5 Min |
Von null zu lauffähig in unter 10 Minuten. OS-spezifische Installationsleitfäden, erste Schritte mit Modellen und eine Datenschutz-erste Checkliste für Anfänger. Ollama installiert sich mit einem einzigen Befehl auf macOS, Windows und Linux. Bei 8 GB RAM beginnen Sie mit Llama 3.2 3B (Q4, ~2 GB) mit dem Befehl `ollama pull llama3.2:3b`.
Modellbewertungen, Benchmark-Vergleiche, Use-Case-Gewinner und Quantisierungsleitfäden für Llama 4 Scout, Qwen3, DeepSeek, Gemma 3 und 70B+-Modelle. Qwen3-Coder führt Code-Benchmarks an; Mistral 7B ist am schnellsten für RAM-begrenzte Setups. Jede Bewertung enthält exakte VRAM-Anforderungen und Benchmark-Scores gegenüber GPT-4o.
Software-Vergleiche, GUI-Vergleiche, API-Setups und Front-End-Leitfäden — Ollama, LM Studio, OpenWebUI, vLLM, llama.cpp und mehr. Ollama stellt eine OpenAI-kompatible REST-API unter `localhost:11434` bereit — vollständig Ersatz für Cloud-SDKs ohne Code-Änderungen. LM Studio fügt eine GUI und Modellbrowser für nicht-technische Benutzer hinzu.
Echte Hardware-Empfehlungen, VRAM-Mathematik, GPU-Benchmarks, Quantisierungs-Trade-offs und Optimierungstricks für RTX 5090, 4090, Mac Silicon und Budget-Setups. RTX 4060 (8 GB VRAM, ~$300) führt 7B-Modelle mit 30+ Token/sec aus. Apple Silicon M2 verarbeitet 7B–13B nativ über Metal ohne dedizierte GPU.
Fine-Tuning, RAG-Pipelines, Quantisierungs-Deep-Dives, Destillation, Modell-Merging und Prompt-Optimierung für die Produktionsnutzung. LoRA reduziert Fine-Tuning VRAM-Anforderungen von 24 GB auf 8 GB. QLoRA reduziert es weiter auf 4 GB. Lokale RAG-Workflows halten sensible Daten vor Ort, während die Suchqualität erhalten bleibt.
Multi-GPU-Setups, Rückschluss-Optimierung, Model-Serving-Frameworks (vLLM, TensorRT-LLM), Überwachung und Observabilität, Kostenaudits und behördliche Compliance. Lokale LLMs eliminieren grenzüberschreitende Datenübertragung, erfüllen DSGVO Artikel 28 und senken die Lizenzkosten um 40–80% gegenüber SaaS.
GPU-Auswahl nach Budget und Anwendungsfall, Kosten pro Token, Energieeffizienz, thermisches Design, Vergleiche des Second-Hand-Marktes und Garantie-Trade-offs. RTX 4090 (~$1600) verarbeitet 70B-Modelle; RTX 4080 (~$800) führt 13B–20B aus; RTX 4060 (~$300) ist das beste Verhältnis für 7B-Modelle.
Vollständige Bauanleitungen für Laptop-, Desktop-, Workstation- und Server-Bereitstellungen. Von Single-GPU-Setups bis zu Multi-Node-Clustern. Budget-Builds ($500–$1500), Mid-Range ($1500–$5000) und Enterprise ($5000+) Konfigurationen mit exakten Teilelisten und geschätztem Durchsatz.
On-Premises-Bereitstellung für Compliance (DSGVO, HIPAA, APPI, CAC). Zero-Knowledge-Architektur, luftgekoppelte Setups und Zugriffsprotokolle. Lokale LLMs eliminieren API-Anbieter-Lock-in, reduzieren die Compliance-Audit-Belastung und schützen proprietäre Daten vor SaaS-Anbietern.
Break-Even-Analyse: lokal vs Cloud vs Abonnementmodelle. Versteckte SaaS-Kosten: Überschussgebühren, Enterprise-Plätze, Audit-Protokolle. Lokale Hardware rechnet sich in 6–18 Monaten für Power-User. ROI-Rechner für verschiedene Workload-Typen.
Ein großes Sprachmodell (z.B. Llama 4, Qwen3.5, DeepSeek), das auf Ihrer eigenen Hardware anstelle einer Cloud-API ausgeführt wird. Sie erhalten vollständige Privatsphäre, Offline-Funktionalität, keine Nutzungsbegrenzungen und null API-Kosten nach dem Hardware-Kauf.
8 GB VRAM führen 7B-Modelle bei Q4-Quantisierung aus. 16 GB verarbeiten 13B-Modelle komfortabel. 40 GB+ (z.B. dual RTX 4090 oder A100) sind erforderlich für 70B-Modelle. Apple-Silicon-Unified-Memory zählt als VRAM.
Ollama ist ein CLI-Tool, das Modelle über einfache Terminalcommands ausführt und eine OpenAI-kompatible API unter `localhost:11434` bereitstellt. LM Studio bietet eine Desktop-GUI, einen Modellbrowser und eine integrierte Chat-Oberfläche. Beide unterstützen die gleichen Modelle.
Bei Coding- und Reasoning-Aufgaben erzielen Llama 4 Scout, DeepSeek V3 und Qwen3 bei Standard-Benchmarks (MMLU, HumanEval) Ergebnisse in 5–10% von GPT-4o mini. Claude Opus 4.7 und GPT-4o behaupten einen Vorteil bei komplexen mehrstufigen Aufgaben.
Fine-Tuning erfordert 500+ gekennzeichnete Trainingsbeispiele, das QLoRA-Framework (reduziert VRAM-Anforderung durch 4-Bit-Quantisierung), 24 GB+ VRAM (oder Cloud-GPU-Vermietung) und 1–4 Stunden Trainingszeit für ein 7B-Modell.
Minimum: 8 GB RAM und eine beliebige moderne CPU (führt 3B–7B-Modelle mit 2–5 Token/Sek aus). Empfohlen: eine GPU mit 8 GB+ VRAM (RTX 3060 oder neuer) für 20–40 Token/Sek auf 7B-Modellen.
Ja. Ollama und LM Studio sind kostenlos und Open-Source. Die Modelle selbst (Llama, Mistral, Qwen, DeepSeek) sind unter Open-Source-Lizenzen kostenlos verfügbar. Die einzigen Kosten fallen für die Hardware an.
Qwen3-Coder 7B ist der Top-Performer für Code-Completion und Review auf Consumer-Hardware (8 GB VRAM). DeepSeek-Coder V2 Lite ist die stärkste Alternative. Für CPU-only-Setups bietet Phi-3.5 Mini unter 4 GB VRAM die beste Code-Qualität.
Ja. Jede moderne CPU kann 3B–7B-Modelle bei Q4-Quantisierung mit Ollama (CPU-Modus) oder LM Studio ausführen. Typische CPU-Rückschluss-Geschwindigkeit: 2–8 Token/Sek auf einer modernen Laptop-CPU, verglichen mit 20–50 Token/Sek auf einer RTX 4060. 7B Q4 erfordert etwa 5 GB RAM (nicht VRAM). Für CPU-only-Setups bieten Phi-3.5 Mini (3,8B) und Llama 3.2 3B das beste Qualitäts-Geschwindigkeits-Verhältnis.
Ollama: Führen Sie `ollama pull <model-name>` erneut aus — es werden nur geänderte Layer heruntergeladen. LM Studio: Öffnen Sie den Modellbrowser, finden Sie die aktualisierte Version und laden Sie sie herunter. Alte GGUF-Dateien werden nicht automatisch entfernt — löschen Sie sie manuell aus ~/.ollama/models (Ollama) oder ~/Library/Application Support/LM Studio/models (macOS), um Speicherplatz freizugeben. Modell-Updates von Meta, Alibaba und Mistral sind normalerweise 24–48 Stunden nach der offiziellen Veröffentlichung verfügbar.
Lokale Verarbeitung bedeutet, dass kein Datenschutzabkommen (Art. 28 DSGVO) erforderlich ist, da Daten niemals die Maschine verlassen. Ollama bindet standardmäßig an `localhost` — keine externe Zugänglichkeit. Dies erfüllt DSGVO-Anforderungen für On-Premises-Deployment.
Llama 4 und Qwen3.5 für allgemeine Verwendung, DeepSeek-Coder für Softwareentwicklung, beide sind BSI-kompatibel wenn On-Premises bereitgestellt. Diese Modelle ermöglichen DSGVO-konforme KI-Nutzung ohne Anbieter-Lock-in.
Top Ollama-Modelle Mai 2026: Llama 4 Scout 17B (beste Gesamtqualität auf 12 GB VRAM, `ollama pull llama4:scout`), Qwen3 8B (bestes Coding, 5 GB VRAM), Gemma 3 12B (starkes Reasoning auf RTX 3060, 8 GB VRAM), DeepSeek-R2 8B (beste Mathe/Logik, 5 GB VRAM).
Die RTX 3060 12 GB VRAM ist eine hervorragende GPU für lokale LLMs. Beste Optionen: Llama 4 Scout 17B bei Q4 (~10 GB VRAM), Gemma 3 12B (~8 GB VRAM), Qwen3 14B (~9 GB VRAM). Alle laufen mit 20–40 Tokens/Sek.
Verwenden Sie Ollama für CLI und OpenAI-kompatible API unter localhost:11434 — ideal für Entwickler. LM Studio für Desktop-GUI und Modellbrowser — ideal für Einsteiger. Jan.ai für datenschutzorientierten Chat mit eingebautem Modellspeicher. Einrichtungszeit: Ollama 2 Min, LM Studio 5 Min, Jan.ai 5 Min.
Beste Budget-GPUs: RTX 3060 12 GB (~250€ gebraucht) für 13B-Modelle mit 20–30 Tok/s. RTX 4060 8 GB (~300€ neu) für 7B mit 35–45 Tok/s. RTX 2070 8 GB (~150€) für 7B mit 15–20 Tok/s. AMD RX 6700 XT 12 GB (~200€) vergleichbar mit RTX 3060 unter ROCm/Linux. Minimum: 8 GB VRAM.
Lokale LLMs verarbeiten alle Daten vor Ort. In Kombination mit vollständiger Festplattenverschlüsselung und Zugriffsprotokollierung erfüllt On-Premises-Verarbeitung DSGVO Artikel 28 (keine Datenschutzvereinbarung erforderlich, wenn Daten die Maschine nicht verlassen). Ollama bindet standardmäßig an `localhost` — keine externe Zugänglichkeit. Dies entspricht BSI-Anforderungen für sichere Cloud-Nutzung und wird vom deutschen Mittelstand zunehmend bevorzugt.
Japans Gesetz zum Schutz persönlicher Informationen (APPI) beschränkt die grenzüberschreitende Datenübertragung. Lokale LLMs eliminieren die grenzüberschreitende Übertragung vollständig. METs AI-Governance-Richtlinien von 2024 unterstützen datenschutzerhaltende KI — lokale Bereitstellung ist mit diesen Empfehlungen vereinbar.
Chinas Cyberspace-Administration regelt generative KI-Dienste (2023). Lokale LLMs, die vollständig vor Ort laufen, fallen außerhalb der öffentlich zugänglichen Anbieter-Definition der CAC und reduzieren die Compliance-Anforderungen für Unternehmensbereitstellungen erheblich.
Die Folien unten zeigen Hardwareanforderungen (8 GB VRAM für 7B-Modelle, 40 GB+ für 70B), Top-Open-Source-Modelle 2026, Ollama-Setup in 5 Minuten, Q4_K_M-Quantisierung, regionale Compliance (DSGVO, APPI) und wichtige Erkenntnisse. PDF als lokales LLM-Referenzkarte herunterladen.
Lokales LLM-Referenzblatt herunterladen (PDF)A local LLM is a large language model that runs entirely on your own hardware — CPU, GPU, or Apple Silicon — without sending data to external servers. You download the model file (typically 2–40 GB) and run it using a tool like Ollama or LM Studio. As of May 2026, the most popular local LLM is Meta Llama 4 Scout 17B, which runs on machines with 10 GB VRAM at 10–80 tokens/sec.
For privacy and cost, yes. For raw output quality, no. As of 2026, frontier cloud models (GPT-4o, Claude Opus 4.7) outperform all locally-runnable models on complex reasoning. However, local 70B models (Llama 4 Scout, Qwen3 72B) match or exceed GPT-4o mini on most everyday tasks — at zero per-query cost.
Minimum: 8 GB RAM to run a 7B model at Q4 quantization. Recommended: 16 GB for 13B models, 40+ GB for 70B models. Apple Silicon unified memory counts fully toward this — an M3 Mac with 18 GB can run a 13B model well. GPU VRAM is equivalent to RAM for GPU inference.
Install Ollama (ollama.com), then run one command: `ollama run llama3.1:8b`. The model downloads automatically and you can start chatting in under 5 minutes. No API key, no account, no internet connection after the initial download.
Meta Llama 4 Scout 17B for general use (Llama Community License, 10 GB VRAM). Qwen3-Coder 32B for coding (92.7% HumanEval, 20 GB VRAM). DeepSeek-R2 8B for reasoning (MIT licence, 5 GB VRAM). All are free, open-weight, and available via `ollama pull`.
Yes. When running with Ollama or LM Studio, your prompts, documents, and responses never leave your machine. No data is transmitted to any server. This makes local LLMs the recommended choice for GDPR-regulated workflows, legal and medical document processing, and any task involving confidential or personal information.
Verwandte Themen: Prompt Engineering
Ein lokales Modell auszuführen ist Schritt eins. Großartige Ausgaben zu erzielen ist Schritt zwei. Der Prompt-Engineering-Guide deckt 80 Techniken in 9 Themen ab — von Grundlagen wie Temperatur und Kontextfenster bis zu fortgeschrittenen Methoden wie Chain-of-Thought, RAG und Team-Governance. Jede Technik funktioniert mit lokalen Modellen.