Wichtigste Erkenntnisse

Bestes Reasoning im kleinen Format: Phi-4 Mini 3.8B -- 68% MMLU, 70% HumanEval, läuft auf 4 GB RAM.
Schnellste auf CPU: Gemma 2 2B -- 40-60 tok/sek auf jedem modernen Laptop, 1,7 GB RAM.
Bestes kleines Codierungsmodell: Qwen2.5 3B -- 65% HumanEval bei ~2 GB RAM.
Beste Universal-3B: Llama 3.2 3B -- beste Community-Unterstützung, 128K Kontext, 2,5 GB RAM.
Seit April 2026 produziert kein Sub-2B-Modell Ausgabequalität, die für professionelle Aufgaben geeignet ist. Verwenden Sie 3B+ für echte Arbeit.

Was ist ein „kleines" lokales LLM und wann sollten Sie eines verwenden?

Ein kleines lokales LLM ist typischerweise definiert als ein Modell mit weniger als 4 Milliarden Parametern. Bei Q4_K_M-Quantisierung benötigen diese Modelle 1,5-3 GB RAM -- gut innerhalb der Einschränkungen von Einstiegs-Laptops mit 4-8 GB Gesamtspeicher.

Seit April 2026 sind kleine Modelle geeignet für: schnelle Zusammenfassung, einfache F&A, Erklärung von Code-Snippets, Übersetzung kurzer Texte und Klassifizierungsaufgaben. Sie sind nicht geeignet für mehrstufiges Reasoning, komplexe Code-Generierung oder das Verfassen langer kohärenter Dokumente.

Die Qualitätslücke zwischen einem 3B- und 7B-Modell ist erheblich -- ungefähr der Lücke zwischen GPT-3.5 Mini und GPT-3.5 Turbo entsprechend. Für Benutzer mit 8 GB RAM ist ein 7B-Modell bei Q4_K_M fast immer die bessere Wahl. Siehe Beste Anfänger-Lokale-LLM-Modelle für 7B-Empfehlungen.

Phi-4 Mini 3.8B -- Beste Reasoning-Leistung in der Sub-4B-Klasse

Microsoft Phi-4 Mini erreicht 68% bei MMLU und 70% bei HumanEval -- Werte, die viele vor 2025 veröffentlichte 7B-Modelle übertreffen. Dies ist möglich, weil Phi-4 Mini auf einem kuratierten synthetischen Datensatz trainiert wurde, der auf Reasoning und Problemlösung fokussiert ist.

Seit April 2026 ist Phi-4 Mini die empfohlene Wahl für Benutzer, die hauptsächlich Reasoning oder Code-Unterstützung auf Hardware mit 4-6 GB RAM benötigen.

Spec	Value
MMLU	68%
HumanEval	70%
RAM (Q4_K_M)	~2,5 GB
Kontext	128K Token
CPU-Geschwindigkeit	30-50 tok/sek
Ollama-Befehl	ollama run phi4-mini

Gemma 2 2B -- Schnellstes kleines lokales LLM auf CPU

Google Gemma 2 2B generiert 40-60 Token/Sek auf einer modernen Laptop-CPU -- das schnellste Modell in dieser Qualitätsklasse. Sein 1,7-GB-RAM-Footprint lässt viel Speicher für Betriebssystem und andere Anwendungen auf einer 4-GB-Maschine.

Die Qualität ist niedriger als Phi-4 Mini bei Reasoning. Das 8K-Kontextfenster ist eine praktische Einschränkung für längere Dokumente. Gemma 2 2B ist die richtige Wahl, wenn Antwortgeschwindigkeit wichtiger ist als Ausgabetiefe.

Spec	Value
MMLU	52%
RAM (Q4_K_M)	~1,7 GB
Kontext	8K Token
CPU-Geschwindigkeit	40-60 tok/sek
Ollama-Befehl	ollama run gemma2:2b

Qwen2.5 3B -- Bestes kleines Modell für Codierungsaufgaben

Qwen2.5 3B erreicht 65% bei HumanEval -- 5 Prozentpunkte über Llama 3.2 3B -- und ist beste Wahl für Codierungsaufgaben im 3B-Format. Es umfasst JSON-Modus und Funktionsaufruf-Unterstützung und verarbeitet nativ 29 Sprachen.

Für nicht-Codierungs-Aufgaben im Englischen erzeugen Llama 3.2 3B und Phi-4 Mini natürlichere Prosa. Wählen Sie Qwen2.5 3B speziell für Codierung oder mehrsprachige Aufgaben.

Spec	Value
MMLU	62%
HumanEval	65%
RAM (Q4_K_M)	~2 GB
Kontext	128K Token
CPU-Geschwindigkeit	25-40 tok/sek
Ollama-Befehl	ollama run qwen2.5:3b

Llama 3.2 3B -- Bestes Universal-Kleinmodell

Meta Llama 3.2 3B ist das am weitesten dokumentierte und von der Community unterstützte 3B-Modell. Es erreicht 58% bei MMLU und 60% bei HumanEval, aber hat breiteste Werkzeugunterstützung, die meisten Fine-Tunes und größte Sammlung von Community-Guides.

Das 128K-Kontextfenster eignet sich für Zusammenfassung von Dokumenten mittlerer Länge. Für ein erstes kleines Modell bleibt Llama 3.2 3B die sicherste Wahl aufgrund vorhersehbaren Verhaltens und umfangreicher Dokumentation.

Spec	Value
MMLU	58%
RAM (Q4_K_M)	~2,5 GB
Kontext	128K Token
CPU-Geschwindigkeit	25-45 tok/sek
Ollama-Befehl	ollama run llama3.2:3b

Llama 3.2 1B -- Absolute Mindestanforderung für nützliche Ausgabe

Llama 3.2 1B benötigt nur 1,3 GB RAM und generiert 60-90 tok/sek auf CPU. Die Ausgabequalität ist marginal: es bewältigt sehr einfache Klassifizierung, kämpft aber mit kohärenten mehrsätzigen Antworten. Seit April 2026 verwenden Sie Llama 3.2 1B nur, wenn RAM die bindende Einschränkung ist oder zum Testen von Tool-Integrationen.

Vollständiger Vergleich: Beste kleine lokale LLMs unter 4B Parametern

Modell	MMLU	HumanEval	RAM	Kontext	Beste für
Phi-4 Mini 3.8B	68%	70%	2,5 GB	128K	Reasoning, Codierung
Qwen2.5 3B	62%	65%	2 GB	128K	Codierung, mehrsprachig
Llama 3.2 3B	58%	60%	2,5 GB	128K	Allgemein, erstes Modell
Gemma 2 2B	52%	38%	1,7 GB	8K	Geschwindigkeit, niedriges RAM
Llama 3.2 1B	32%	28%	1,3 GB	128K	Minimales RAM

Kleine lokale LLMs nach Region

EU / DSGVO: Für EU-Profis auf begrenzter Hardware -- Feldarbeit, air-gapped Umgebungen, ältere Enterprise-Laptops -- bieten kleine lokale Modelle DSGVO-konforme Inferenz ohne Datengress. Ein Phi-4 Mini 3.8B auf Standard-Corporate-Laptop (8 GB RAM) behält alle Texte auf Gerät unter DSGVO-Artikel 5. Für BSI-Compliance: Phi-4 Mini (Microsoft, MIT-Lizenz) und Llama 3.2 3B (Meta, Llama Community-Lizenz) bieten versionierte Modell-Identifikatoren via Ollama-Tags. Mistral bietet derzeit kein Sub-4B-Modell. Für EU-Organisationen mit EU-Präferenz sind Optionen begrenzt, bis Mistral Sub-4B freigibt.

Japan (METI): Für japanischsprachige Aufgaben ist Qwen2.5 3B das einzige Modell mit nativer japanischer Tokenisierung. Llama 3.2 3B verarbeitet Japanisch mit niedrigerer Token-Effizienz. Für japanische Zusammenfassung oder Übersetzung: `ollama run qwen2.5:3b`. Der Geschwindigkeitsvorteil ist relevant für japanischen Enterprise-Einsatz: 25-40 tok/sek auf CPU bietet angemessene Echtzeit-Antwort auf Standard-Office-Hardware.

China: Qwen2.5 3B (Alibaba, Apache 2.0) ist natürliche Wahl für chinesischsprachige Bereitstellung. Native chinesische Tokenisierung verarbeitet Mandarin-Text 30-40% effizienter als Llama. Für IoT und Edge unter Chinas Datensicherheitsgesetz: `ollama run qwen2.5:3b` läuft auf jedem Linux-Gerät mit 4 GB RAM ohne externe API-Aufrufe.

Häufige Fehler beim Ausführen kleiner lokaler LLMs

Verwendung von Q8_0 statt Q4_K_M: Q8_0 benötigt fast doppelt so viel RAM mit minimaler Qualitätsverbesserung. Ein Llama 3.2 3B mit Q8_0 benötigt ~3,8 GB RAM vs ~2,5 GB für Q4_K_M. Auf 4 GB Maschinen kann Q8_0 Swap-Nutzung und 3-5× langsamere Inferenz auslösen. Verwenden Sie immer Q4_K_M für Sub-4B-Modelle.
Ausführung eines Basis-Modells statt Instruct-Variante: Basis-Modelle (z. B. `llama3.2:3b-text`) folgen keine Anweisungen. Wenn Sie ein Basis-Modell „Was ist 2+2?" fragen, kann es den Satz als Quiz vervollständigen statt „4" zu antworten. Verwenden Sie immer: `llama3.2:3b` (Ollama greift standardmäßig zu Instruct).
Erwartung von 7B-Qualität aus 3B-Modell: Ein 3B-Modell mit 68% MMLU (Phi-4 Mini) funktioniert ähnlich wie GPT-3.5 Mini aus 2023. Komplexe Reasoning, lange Texte und differenzierter Code haben niedrigere Qualität. Für bessere Qualität: aktualisieren Sie auf 7B (RAM-Unterschied: ~2 GB mehr).

Weiterführende Lektüre

Beste Anfänger-Lokale-LLM-Modelle -- 7B-Empfehlungen wenn 8 GB RAM verfügbar
Ihr erstes lokales LLM ausführen -- Schritt-für-Schritt-Anleitung mit Ollama unter 10 Minuten
Lokales LLM auf Laptop -- Wärmeverwaltung und Batterielebensdauer auf begrenzter Hardware
LLM-Quantisierung erklärt -- warum Q4_K_M Standard ist und Q3_K_M für extreme RAM-Einschränkungen
Beste lokale LLMs zum Codieren -- Codierungs-Modelle bei 7B+ wenn Qwen2.5 3B nicht ausreicht
Lokales LLM-Setup beheben -- OOM-Fehler, langsame Inferenz und Ladefehler auf RAM-armen Maschinen

Häufig gestellte Fragen

Was ist das kleinste lokale LLM mit nützlicher Ausgabe?

Seit April 2026 ist 3B bei Q4_K_M praktisches Minimum. Modelle unter 2B (Llama 3.2 1B, Gemma 2 2B) erzeugen kohärente einzelne Sätze, kämpfen aber mit mehrstufigen Anweisungen und Reasoning. Für Zusammenfassung und F&A ist Gemma 2 2B brauchbar. Für komplexere Aufgaben: beginnen Sie mit 3B.

Kann ein 3B-Modell auf einem Telefon laufen?

Ja -- Llama 3.2 1B und 3B sind für mobile Bereitstellung konzipiert. Meta bietet optimierte Builds für iOS und Android. Inferenz auf modernem Telefon erzeugt 15-30 tok/sek für 1B. LM Studio und Ollama laufen nicht auf iOS/Android -- mobil erfordert separate Frameworks.

Sind kleine Modelle für Zusammenfassung geeignet?

Ja -- Zusammenfassung ist stärkster Anwendungsfall für kleine Modelle. Gemma 2 2B und Llama 3.2 3B produzieren zuverlässig genaue Zusammenfassungen von Texten bis zu ~4.000 Wörtern. Für längere Dokumente verwenden Sie Modell mit großem Kontext wie Phi-4 Mini oder Llama 3.2 3B (beide 128K).

Wie viel schneller ist 2B als 7B auf gleicher Hardware?

Ungefähr 2-3× schneller auf CPU. Gemma 2 2B generiert 40-60 tok/sek vs 10-20 tok/sek für Mistral 7B. Auf GPU verengt sich Vorteil, da GPU-Durchsatz weniger durch Modellgröße begrenzt ist. Unterschied ist auf reinen CPU-Maschinen deutlichst.

Unterstützen kleine Modelle Funktionsaufrufe?

Einige tun dies. Qwen2.5 3B unterstützt Funktionsaufrufe und JSON. Llama 3.2 3B hat grundlegende Werkzeugunterstützung. Gemma 2 2B unterstützt keine Funktionsaufrufe. Überprüfen Sie Modelldokumentation vor Pipeline-Aufbau.

Welches kleine Modell ist beste für nicht-englische Sprachen?

Qwen2.5 3B unterstützt nativ 29 Sprachen (Chinesisch, Japanisch, Koreanisch, Arabisch). Gemma 2 2B und Phi-4 Mini sind hauptsächlich auf Englisch optimiert. Für nicht-englische Aufgaben bei kleinen Modellen ist Qwen2.5 3B klare Wahl.

Unterschied zwischen Phi-4 Mini und Llama 3.2 3B?

Phi-4 Mini übertrifft bei Reasoning, Mathematik, Codierung (68% vs 58% MMLU, 70% vs 60% HumanEval) bei fast identischem RAM (2,5 GB). Für Alltags-Aufgaben ist Lücke spürbar aber nicht dramatisch. Llama 3.2 3B hat breitere Support. Wählen Sie Phi-4 Mini für Reasoning; Llama für Chat.

Kann ich zwei kleine Modelle gleichzeitig laufen lassen?

Ja, wenn RAM zulässt. Zwei 3B-Modelle bei Q4_K_M verwenden ~5 GB kombiniert -- auf 8 GB Maschine mit schlankem OS möglich. Ollama lädt standardmäßig ein Modell pro Prozess. Laufen Sie zwei Ollama-Instanzen auf verschiedenen Ports (OLLAMA_HOST=:11434 und :11435) parallel.

Funktionieren kleine Modelle für RAG?

Ja für einfaches RAG. Llama 3.2 3B und Phi-4 Mini beantworten Fragen über abgerufene Dokumentchunks zuverlässig. Für RAG über große Wissensdatenbanken mit Multi-Hop-Reasoning sind 7B+-Modelle konsistenter. GPT4All LocalDocs nutzt 3B für Dokument-Q&A.

Ist Phi-4 Mini besser als Llama 3.2 3B für Codierung?

Ja. Phi-4 Mini erreicht 70% auf HumanEval vs 60% für Llama 3.2 3B -- aussagekräftige 10-Punkte-Lücke. Für Code-Hilfe auf 4-6 GB RAM ist Phi-4 Mini empfohlen. Für mehrsprachige Codierung (nicht-Python) ist Qwen2.5 3B mit 65% HumanEval wettbewerbsfähig und unterstützt Funktionsaufrufe.

Quellen

Hugging Face Open LLM Leaderboard -- open-llm-leaderboard.hf.space (MMLU und HumanEval Werte)
Microsoft Phi-4 Technical Report -- microsoft.com/en-us/research/publication/phi-4-technical-report/
Meta Llama 3.2 Model Card -- huggingface.co/meta-llama/Llama-3.2-3B-Instruct
Google Gemma 2 Technical Report -- storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf