Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Beste LLM-Modelle für Apple Silicon 2026: Empfehlungen für 16 GB, 36 GB, 64 GB, 128 GB
Hardware & Performance

Beste LLM-Modelle für Apple Silicon 2026: Empfehlungen für 16 GB, 36 GB, 64 GB, 128 GB

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

16 GB: Phi-4. 36 GB: Llama 3.3 8B Q8 (~38 tok/s). 64 GB: Qwen3 34B Q5 (~18 tok/s). 128 GB: Llama 3.3 70B Q5 (~14 tok/s M5 Pro, ~16 tok/s M5 Max). Alle laufen über Ollama auf Metal.

Beste lokale LLM-Modellempfehlungen für jeden Apple-Silicon-Mac. Konkrete Modellauswahl für 16 GB (Phi-4), 36 GB (Llama 3.3 8B), 64 GB (Qwen2 34B), 128 GB (Llama 3.3 70B) mit tok/s-Werten auf M5 Pro/Max.

Beste Modellempfehlungen nach Mac-Speicher

Zuletzt verifiziert: 2026-05-15. Modellempfehlungen können sich mit neuen Releases ändern. Wir aktualisieren diese Seite vierteljährlich.

SpeicherPrimäre WahlQuantisierungGrößeM5 Pro tok/sM5 Max tok/sAlternative
16 GBPhi-4Q4_K_M2,5 GB60–70110–130Llama 3.3 8B Q4 (knapp)
36 GBLlama 3.3 8BQ88,5 GB38–4575–85Qwen3 14B Q4 (8,5 GB)
48 GBQwen3 14BQ816 GB25–3050–60Mixtral 8x22B Q4 (26 GB)
64 GBQwen3 34BQ524 GB18–2235–42Mixtral 8x22B Q5 (32 GB)
96 GBLlama 3.3 70BQ442 GB10–1320–25Qwen3 72B Q4 (44 GB)
128 GBLlama 3.3 70BQ549 GB8–1114–18Qwen3 72B Q5 (51 GB)
128 GBLlama 3.3 70BQ874 GBN/A9–12Beste Qualität, nur M5 Max

Größen im GGUF-Format. MLX 4-Bit-Äquivalente sind vergleichbar.

Modell-Qualitätsbenchmarks (Standardtests 2026)

ModellMMLUHumanEvalGSM8KDurchschn.Hinweise
Phi-4 (3,8B)84,882,691,086,1Bestes kleines Modell
Llama 3.3 8B73,072,684,576,7Solides Allround-Modell
Qwen3 14B79,783,590,284,5Starkes Reasoning
Mistral Small60,130,550,046,9Älter, aber schnell
Qwen3 34B83,388,493,088,2Bestes mittelgroßes Modell
Mixtral 8x22B70,640,260,457,1MoE-Architektur
Llama 3.3 70B86,080,595,187,2Bestes allgemeines Modell
Qwen3 72B86,186,695,889,5Top Reasoning
Llama 3.3 405B88,689,096,891,5Passt nicht lokal
GPT-5.5 (Referenz)88,790,295,891,6Cloud-Referenz

Qwen3 72B auf einem 128-GB-Mac nähert sich GPT-5.5-Qualität bei null laufenden Kosten. Dies ist die wichtigste Entwicklung in der lokalen KI im Jahr 2026.

Beste Modelle nach Anwendungsfall (2026)

AnwendungsfallBestes für 36-GB-MacBestes für 64-GB-MacBestes für 128-GB-Mac
Programmierung (allgemein)Llama 3.3 8BDeepSeek Coder V2 16BLlama 3.3 70B
Programmierung (Python)DeepSeek Coder V2 LiteDeepSeek Coder V2 16BDeepSeek Coder V2 236B
Langtexte verfassenLlama 3.3 8B Q8Qwen3 34B Q5Llama 3.3 70B Q5
Chat / KonversationMistral SmallMixtral 8x22BLlama 3.3 70B
Reasoning / MathematikQwen3 14BQwen3 34BQwen3 72B
RAG / Frage & AntwortLlama 3.3 8B + nomic-embedLlama 3.3 8B + bge-largeLlama 3.3 70B + bge-large
Vision / MultimodalLLaVA 7BLlama 3.2 Vision 11BLlama 3.2 Vision 90B
ÜbersetzungQwen3 14BQwen3 34BAya Expanse 32B
ZusammenfassungLlama 3.3 8BQwen3 34BLlama 3.3 70B
Code-ReviewDeepSeek Coder V2 LiteDeepSeek Coder V2 16BLlama 3.3 70B

Spezialisierte Modelle übertreffen allgemeine Modelle oft bei spezifischen Aufgaben. DeepSeek Coder schlägt Llama 3.3 beim Code selbst dann, wenn Llama das größere Modell ist.

Praxisszenarien nach Nutzertyp

💡Tip: Indie-Entwickler (Mac Mini M5 Pro 64 GB, ca. 1.150 €) - Programmierung: DeepSeek Coder V2 Lite (16B Q4, 10 GB) - Texte: Llama 3.3 8B Q8 (8,5 GB) für Dokumentation und E-Mails - Permanent aktiv: beide Modelle warm mit `OLLAMA_MAX_LOADED_MODELS=2` - Tageskosten: 0 € (vs. 28–90 €/Monat für Copilot + ChatGPT)

💡Tip: Datenschutzbewusster Profi (MacBook Pro M5 Pro 48 GB, ca. 2.400 €) - Hauptmodell: Llama 3.3 8B Q8 für allgemeine Arbeit - Sensibel: Qwen3 14B Q5 für rechtliche/medizinische/finanzielle Dokumente - Reisen: funktioniert offline im Flugzeug, in sicheren Einrichtungen - Keine Daten verlassen den Laptop

💡Tip: Forscher / ML-Ingenieur (Mac Studio M5 Max 128 GB, ca. 3.800 €) - Primär: Llama 3.3 70B Q5 (49 GB) für Qualität - Spezialisiert: Qwen3 72B Q4 für nicht-englische Forschung - Programmierung: DeepSeek Coder V2 16B - Vision: Llama 3.2 Vision 11B für Papierfiguren - Alle vier Modelle gleichzeitig geladen

💡Tip: Familien-KI-Server (Mac Mini M5 Pro 64 GB, dauerhaft aktiv) - Sprachassistent: Llama 3.3 8B + Whisper + Piper - RAG: Familiendokument-Frage & Antwort mit Embeddings - Programmierhilfe für Familienmitglieder via REST API - Stromkosten: ca. 30 €/Jahr - Ersetzt: ChatGPT Plus für 4 Personen = ca. 900 €/Jahr

Zu vermeidende Modelle in 2026 (und warum)

⚠️Warning: Llama 3.3 (jede Größe) nicht mehr empfohlen — von Llama 3.1 und Llama 3.2 abgelöst; Standard-Leaderboards zeigen deutlich schwächere Ergebnisse gegenüber neueren Releases. Taucht noch in älteren Tutorials auf — diesen nicht folgen. Ersetzen durch: Llama 3.3 8B.

⚠️Warning: Vicuna, Alpaca, WizardLM vermeiden — Community-Feinabstimmungen aus 2023. Moderne Basismodelle (Llama 3.3, Qwen3) entsprechen oder übertreffen ihre Leistung. Ersetzen durch: Qwen3 14B oder Llama 3.3 8B.

⚠️Warning: Falcon 180B vermeiden — Passt nicht auf Consumer-Apple-Silicon. Llama 3.3 70B (kleiner) übertrifft es. Ersetzen durch: Llama 3.3 70B Q5.

⚠️Warning: FP16-Quantisierung auf Consumer-Hardware vermeiden — Llama 3.3 70B FP16 = 140 GB, passt auf keinen Mac. Qualitätsgewinn gegenüber Q5 ist unter 1%. Ersetzen durch: Q4_K_M oder Q5_K_M.

⚠️Warning: Reine Basismodelle vermeiden (keine Instruct-Variante) — Basismodelle ergänzen Text, folgen aber keine Anweisungen. Auf "-instruct" oder "-chat"-Suffix achten. Ersetzen durch: die Instruct-Variante desselben Modells.

⚠️Warning: Bei Modellen mit geringer Entwicklungsaktivität Vorsicht walten lassen — StableLM, RedPajama, MPT, Pythia: mit geringer neuerer Entwicklungsaktivität (Stand Mitte 2026). Modelle von Meta, Alibaba, Mistral, Microsoft mit regelmäßigen Updates verwenden.

Modellformat-Kurzreferenz

FormatVerwendet vonGröße vs. Original
GGUF Q4_K_MOllama, llama.cpp~30% von FP16
GGUF Q5_K_MOllama, llama.cpp~35% von FP16
GGUF Q8_0Ollama, llama.cpp~50% von FP16
MLX 4-bitMLX Framework~30% von FP16
MLX 8-bitMLX Framework~50% von FP16
FP16 (Original)Alle Frameworks100%

Größen in diesem Artikel sind GGUF Q4_K_M, sofern nicht anders angegeben. MLX 4-Bit-Äquivalente sind ähnlich groß. Für genaue Bytes die Modellkarte auf HuggingFace prüfen.

Kurzreferenz: Diese Modelle herunterladen

bash
# 16 GB Mac
ollama pull phi4

# 36 GB Mac (eines wählen)
ollama pull llama3.1:8b
ollama pull qwen2.5:14b
ollama pull mistral:7b

# 64 GB Mac
ollama pull qwen2.5:34b
ollama pull mixtral:8x7b

# 128 GB Mac
ollama pull llama3.1:70b
ollama pull qwen2.5:72b

# Spezialmodelle
ollama pull deepseek-coder-v2:16b   # Programmierung
ollama pull llama3.2-vision:11b     # Vision
ollama pull aya-expanse:32b         # Übersetzung

Kann ich zwei verschiedene Modelle gleichzeitig ausführen?

Ja, `OLLAMA_MAX_LOADED_MODELS=2` in der Umgebungsvariablen setzen. 64 GB kann 8B + 34B gleichzeitig ausführen.

Welches Modell eignet sich am besten für Anfänger?

Llama 3.3 8B. Weit verbreitet, gute Ausgabequalität, bewährte Erfolgsbilanz. Läuft auf jedem M1+ Mac.

Ist Mixtral 8x22B schneller als Llama 8B?

Nein, etwas langsamer (40–50 tok/s vs. 50–60 tok/s auf M5 Pro). Aber das Reasoning ist überlegen.

Was ist das beste lokale LLM im Jahr 2026?

Für die meisten Benutzer auf Apple Silicon: Qwen3 (jede Größe, die auf Ihren Mac passt) führt derzeit die Qualitätsbenchmarks an. Llama 3.3 70B ist für 128-GB-Macs vergleichbar. Unter 16 GB: Phi-4 übertrifft mit 3,8B Parametern seine Gewichtsklasse und entspricht 8B-Modellen aus 2024.

Kann ich Llama 3.3 405B auf einem Mac ausführen?

Nein. Llama 3.3 405B benötigt selbst bei Q4-Quantisierung über 200 GB — kein Consumer-Mac hat genug vereinigten Speicher. Warten Sie auf M5 Ultra (erwartet Mitte 2026, 256 GB) — das wird die erste Consumer-Hardware sein, die 405B bei Q3–Q4 ausführen kann.

Ist Qwen besser als Llama für den lokalen Einsatz?

Bei den meisten Aufgaben übertrifft Qwen3 Llama 3.3 bei gleicher Parameterzahl in Benchmarks leicht (1–3 Punkte auf MMLU). Llama hat eine breitere Community und mehr Feinabstimmungen. Die meisten Benutzer werden den Unterschied nicht bemerken — die Wahl nach Verfügbarkeit und Feinabstimmungs-Ökosystem treffen.

Was ist das kleinste Modell, das wirklich nützlich ist?

Phi-4 mit 3,8B Parametern. Es erzielt 84,8 auf MMLU — vergleichbar mit einigen 8B-Modellen aus 2024. Für Chat und Fragen & Antworten ist es überraschend leistungsfähig. Für Programmierung oder komplexes Reasoning zu Llama 3.3 8B oder Qwen3 14B wechseln.

Muss ich bei der Nutzung lokaler Modelle die DSGVO beachten?

Wenn Daten ausschließlich lokal verarbeitet werden und keine Modelle über Cloud-APIs aufgerufen werden, findet keine Datenübertragung an Dritte statt. Lokale KI-Modelle verarbeiten Eingaben auf dem eigenen Gerät — das entspricht dem Prinzip der Datenminimierung gemäß DSGVO Art. 5. Im Unternehmenskontext empfiehlt sich dennoch eine Dokumentation des Verarbeitungsverzeichnisses nach Art. 30 DSGVO.

Eignen sich lokale Modelle für den Mittelstand?

Ja. Mit einem Mac Mini M5 Pro (64 GB, ca. 1.150 €) lassen sich mehrere 8B- bis 34B-Modelle dauerhaft betreiben. Im Vergleich zu Cloud-APIs (GPT-4: ca. 50–200 €/Monat pro Nutzer) amortisiert sich die Hardware innerhalb von 6–18 Monaten. Besonders für DSGVO-konforme Verarbeitung vertraulicher Dokumente (z. B. Verträge, Kundenanfragen) ist die lokale Option attraktiv.

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Ein Modell für Ihren Mac ausgewählt? Vergleichen Sie seine Antworten mit GPT-4, Claude, Gemini und 22 weiteren Modellen nebeneinander mit PromptQuorum — überprüfen Sie, ob Ihr lokales Llama, Qwen oder Phi-Modell die Cloud-Qualität für Ihre spezifischen Anwendungsfälle erreicht.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs