Beste Modellempfehlungen nach Mac-Speicher
Zuletzt verifiziert: 2026-05-15. Modellempfehlungen können sich mit neuen Releases ändern. Wir aktualisieren diese Seite vierteljährlich.
| Speicher | Primäre Wahl | Quantisierung | Größe | M5 Pro tok/s | M5 Max tok/s | Alternative |
|---|---|---|---|---|---|---|
| 16 GB | Phi-4 | Q4_K_M | 2,5 GB | 60–70 | 110–130 | Llama 3.3 8B Q4 (knapp) |
| 36 GB | Llama 3.3 8B | Q8 | 8,5 GB | 38–45 | 75–85 | Qwen3 14B Q4 (8,5 GB) |
| 48 GB | Qwen3 14B | Q8 | 16 GB | 25–30 | 50–60 | Mixtral 8x22B Q4 (26 GB) |
| 64 GB | Qwen3 34B | Q5 | 24 GB | 18–22 | 35–42 | Mixtral 8x22B Q5 (32 GB) |
| 96 GB | Llama 3.3 70B | Q4 | 42 GB | 10–13 | 20–25 | Qwen3 72B Q4 (44 GB) |
| 128 GB | Llama 3.3 70B | Q5 | 49 GB | 8–11 | 14–18 | Qwen3 72B Q5 (51 GB) |
| 128 GB | Llama 3.3 70B | Q8 | 74 GB | N/A | 9–12 | Beste Qualität, nur M5 Max |
Größen im GGUF-Format. MLX 4-Bit-Äquivalente sind vergleichbar.
Modell-Qualitätsbenchmarks (Standardtests 2026)
| Modell | MMLU | HumanEval | GSM8K | Durchschn. | Hinweise |
|---|---|---|---|---|---|
| Phi-4 (3,8B) | 84,8 | 82,6 | 91,0 | 86,1 | Bestes kleines Modell |
| Llama 3.3 8B | 73,0 | 72,6 | 84,5 | 76,7 | Solides Allround-Modell |
| Qwen3 14B | 79,7 | 83,5 | 90,2 | 84,5 | Starkes Reasoning |
| Mistral Small | 60,1 | 30,5 | 50,0 | 46,9 | Älter, aber schnell |
| Qwen3 34B | 83,3 | 88,4 | 93,0 | 88,2 | Bestes mittelgroßes Modell |
| Mixtral 8x22B | 70,6 | 40,2 | 60,4 | 57,1 | MoE-Architektur |
| Llama 3.3 70B | 86,0 | 80,5 | 95,1 | 87,2 | Bestes allgemeines Modell |
| Qwen3 72B | 86,1 | 86,6 | 95,8 | 89,5 | Top Reasoning |
| Llama 3.3 405B | 88,6 | 89,0 | 96,8 | 91,5 | Passt nicht lokal |
| GPT-5.5 (Referenz) | 88,7 | 90,2 | 95,8 | 91,6 | Cloud-Referenz |
Qwen3 72B auf einem 128-GB-Mac nähert sich GPT-5.5-Qualität bei null laufenden Kosten. Dies ist die wichtigste Entwicklung in der lokalen KI im Jahr 2026.
Beste Modelle nach Anwendungsfall (2026)
| Anwendungsfall | Bestes für 36-GB-Mac | Bestes für 64-GB-Mac | Bestes für 128-GB-Mac |
|---|---|---|---|
| Programmierung (allgemein) | Llama 3.3 8B | DeepSeek Coder V2 16B | Llama 3.3 70B |
| Programmierung (Python) | DeepSeek Coder V2 Lite | DeepSeek Coder V2 16B | DeepSeek Coder V2 236B |
| Langtexte verfassen | Llama 3.3 8B Q8 | Qwen3 34B Q5 | Llama 3.3 70B Q5 |
| Chat / Konversation | Mistral Small | Mixtral 8x22B | Llama 3.3 70B |
| Reasoning / Mathematik | Qwen3 14B | Qwen3 34B | Qwen3 72B |
| RAG / Frage & Antwort | Llama 3.3 8B + nomic-embed | Llama 3.3 8B + bge-large | Llama 3.3 70B + bge-large |
| Vision / Multimodal | LLaVA 7B | Llama 3.2 Vision 11B | Llama 3.2 Vision 90B |
| Übersetzung | Qwen3 14B | Qwen3 34B | Aya Expanse 32B |
| Zusammenfassung | Llama 3.3 8B | Qwen3 34B | Llama 3.3 70B |
| Code-Review | DeepSeek Coder V2 Lite | DeepSeek Coder V2 16B | Llama 3.3 70B |
Spezialisierte Modelle übertreffen allgemeine Modelle oft bei spezifischen Aufgaben. DeepSeek Coder schlägt Llama 3.3 beim Code selbst dann, wenn Llama das größere Modell ist.
Praxisszenarien nach Nutzertyp
💡Tip: Indie-Entwickler (Mac Mini M5 Pro 64 GB, ca. 1.150 €) - Programmierung: DeepSeek Coder V2 Lite (16B Q4, 10 GB) - Texte: Llama 3.3 8B Q8 (8,5 GB) für Dokumentation und E-Mails - Permanent aktiv: beide Modelle warm mit `OLLAMA_MAX_LOADED_MODELS=2` - Tageskosten: 0 € (vs. 28–90 €/Monat für Copilot + ChatGPT)
💡Tip: Datenschutzbewusster Profi (MacBook Pro M5 Pro 48 GB, ca. 2.400 €) - Hauptmodell: Llama 3.3 8B Q8 für allgemeine Arbeit - Sensibel: Qwen3 14B Q5 für rechtliche/medizinische/finanzielle Dokumente - Reisen: funktioniert offline im Flugzeug, in sicheren Einrichtungen - Keine Daten verlassen den Laptop
💡Tip: Forscher / ML-Ingenieur (Mac Studio M5 Max 128 GB, ca. 3.800 €) - Primär: Llama 3.3 70B Q5 (49 GB) für Qualität - Spezialisiert: Qwen3 72B Q4 für nicht-englische Forschung - Programmierung: DeepSeek Coder V2 16B - Vision: Llama 3.2 Vision 11B für Papierfiguren - Alle vier Modelle gleichzeitig geladen
💡Tip: Familien-KI-Server (Mac Mini M5 Pro 64 GB, dauerhaft aktiv) - Sprachassistent: Llama 3.3 8B + Whisper + Piper - RAG: Familiendokument-Frage & Antwort mit Embeddings - Programmierhilfe für Familienmitglieder via REST API - Stromkosten: ca. 30 €/Jahr - Ersetzt: ChatGPT Plus für 4 Personen = ca. 900 €/Jahr
Zu vermeidende Modelle in 2026 (und warum)
⚠️Warning: Llama 3.3 (jede Größe) nicht mehr empfohlen — von Llama 3.1 und Llama 3.2 abgelöst; Standard-Leaderboards zeigen deutlich schwächere Ergebnisse gegenüber neueren Releases. Taucht noch in älteren Tutorials auf — diesen nicht folgen. Ersetzen durch: Llama 3.3 8B.
⚠️Warning: Vicuna, Alpaca, WizardLM vermeiden — Community-Feinabstimmungen aus 2023. Moderne Basismodelle (Llama 3.3, Qwen3) entsprechen oder übertreffen ihre Leistung. Ersetzen durch: Qwen3 14B oder Llama 3.3 8B.
⚠️Warning: Falcon 180B vermeiden — Passt nicht auf Consumer-Apple-Silicon. Llama 3.3 70B (kleiner) übertrifft es. Ersetzen durch: Llama 3.3 70B Q5.
⚠️Warning: FP16-Quantisierung auf Consumer-Hardware vermeiden — Llama 3.3 70B FP16 = 140 GB, passt auf keinen Mac. Qualitätsgewinn gegenüber Q5 ist unter 1%. Ersetzen durch: Q4_K_M oder Q5_K_M.
⚠️Warning: Reine Basismodelle vermeiden (keine Instruct-Variante) — Basismodelle ergänzen Text, folgen aber keine Anweisungen. Auf "-instruct" oder "-chat"-Suffix achten. Ersetzen durch: die Instruct-Variante desselben Modells.
⚠️Warning: Bei Modellen mit geringer Entwicklungsaktivität Vorsicht walten lassen — StableLM, RedPajama, MPT, Pythia: mit geringer neuerer Entwicklungsaktivität (Stand Mitte 2026). Modelle von Meta, Alibaba, Mistral, Microsoft mit regelmäßigen Updates verwenden.
Modellformat-Kurzreferenz
| Format | Verwendet von | Größe vs. Original |
|---|---|---|
| GGUF Q4_K_M | Ollama, llama.cpp | ~30% von FP16 |
| GGUF Q5_K_M | Ollama, llama.cpp | ~35% von FP16 |
| GGUF Q8_0 | Ollama, llama.cpp | ~50% von FP16 |
| MLX 4-bit | MLX Framework | ~30% von FP16 |
| MLX 8-bit | MLX Framework | ~50% von FP16 |
| FP16 (Original) | Alle Frameworks | 100% |
Größen in diesem Artikel sind GGUF Q4_K_M, sofern nicht anders angegeben. MLX 4-Bit-Äquivalente sind ähnlich groß. Für genaue Bytes die Modellkarte auf HuggingFace prüfen.
Kurzreferenz: Diese Modelle herunterladen
# 16 GB Mac
ollama pull phi4
# 36 GB Mac (eines wählen)
ollama pull llama3.1:8b
ollama pull qwen2.5:14b
ollama pull mistral:7b
# 64 GB Mac
ollama pull qwen2.5:34b
ollama pull mixtral:8x7b
# 128 GB Mac
ollama pull llama3.1:70b
ollama pull qwen2.5:72b
# Spezialmodelle
ollama pull deepseek-coder-v2:16b # Programmierung
ollama pull llama3.2-vision:11b # Vision
ollama pull aya-expanse:32b # ÜbersetzungKann ich zwei verschiedene Modelle gleichzeitig ausführen?
Ja, `OLLAMA_MAX_LOADED_MODELS=2` in der Umgebungsvariablen setzen. 64 GB kann 8B + 34B gleichzeitig ausführen.
Welches Modell eignet sich am besten für Anfänger?
Llama 3.3 8B. Weit verbreitet, gute Ausgabequalität, bewährte Erfolgsbilanz. Läuft auf jedem M1+ Mac.
Ist Mixtral 8x22B schneller als Llama 8B?
Nein, etwas langsamer (40–50 tok/s vs. 50–60 tok/s auf M5 Pro). Aber das Reasoning ist überlegen.
Was ist das beste lokale LLM im Jahr 2026?
Für die meisten Benutzer auf Apple Silicon: Qwen3 (jede Größe, die auf Ihren Mac passt) führt derzeit die Qualitätsbenchmarks an. Llama 3.3 70B ist für 128-GB-Macs vergleichbar. Unter 16 GB: Phi-4 übertrifft mit 3,8B Parametern seine Gewichtsklasse und entspricht 8B-Modellen aus 2024.
Kann ich Llama 3.3 405B auf einem Mac ausführen?
Nein. Llama 3.3 405B benötigt selbst bei Q4-Quantisierung über 200 GB — kein Consumer-Mac hat genug vereinigten Speicher. Warten Sie auf M5 Ultra (erwartet Mitte 2026, 256 GB) — das wird die erste Consumer-Hardware sein, die 405B bei Q3–Q4 ausführen kann.
Ist Qwen besser als Llama für den lokalen Einsatz?
Bei den meisten Aufgaben übertrifft Qwen3 Llama 3.3 bei gleicher Parameterzahl in Benchmarks leicht (1–3 Punkte auf MMLU). Llama hat eine breitere Community und mehr Feinabstimmungen. Die meisten Benutzer werden den Unterschied nicht bemerken — die Wahl nach Verfügbarkeit und Feinabstimmungs-Ökosystem treffen.
Was ist das kleinste Modell, das wirklich nützlich ist?
Phi-4 mit 3,8B Parametern. Es erzielt 84,8 auf MMLU — vergleichbar mit einigen 8B-Modellen aus 2024. Für Chat und Fragen & Antworten ist es überraschend leistungsfähig. Für Programmierung oder komplexes Reasoning zu Llama 3.3 8B oder Qwen3 14B wechseln.
Muss ich bei der Nutzung lokaler Modelle die DSGVO beachten?
Wenn Daten ausschließlich lokal verarbeitet werden und keine Modelle über Cloud-APIs aufgerufen werden, findet keine Datenübertragung an Dritte statt. Lokale KI-Modelle verarbeiten Eingaben auf dem eigenen Gerät — das entspricht dem Prinzip der Datenminimierung gemäß DSGVO Art. 5. Im Unternehmenskontext empfiehlt sich dennoch eine Dokumentation des Verarbeitungsverzeichnisses nach Art. 30 DSGVO.
Eignen sich lokale Modelle für den Mittelstand?
Ja. Mit einem Mac Mini M5 Pro (64 GB, ca. 1.150 €) lassen sich mehrere 8B- bis 34B-Modelle dauerhaft betreiben. Im Vergleich zu Cloud-APIs (GPT-4: ca. 50–200 €/Monat pro Nutzer) amortisiert sich die Hardware innerhalb von 6–18 Monaten. Besonders für DSGVO-konforme Verarbeitung vertraulicher Dokumente (z. B. Verträge, Kundenanfragen) ist die lokale Option attraktiv.