Startseite/Lokale LLMs/Wie viel Unified Memory für lokale LLMs? 16 GB vs 36 GB vs 64 GB vs 128 GB (2026)

Hardware & Performance

Wie viel Unified Memory für lokale LLMs? 16 GB vs 36 GB vs 64 GB vs 128 GB (2026)

Aktualisiert: Mai 2026·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

16 GB: Nur 7B-Modelle (knapp). 36 GB: 13B komfortabel, 34B Q4 knapp. 64 GB: 34B Q5 komfortabel, 70B Q3 kaum. 128 GB: 70B Q5 komfortabel. Beim Kauf maximalen Speicher wählen — spätere Aufrüstung nicht möglich. Mindestens 36 GB empfohlen; M5 Pro 64 GB ist zukunftssicher bis 2027.

Arbeitsspeicher-Sizing-Leitfaden für lokale LLMs auf dem Mac: Welche Modelle passen in 16 GB, 36 GB, 64 GB, 128 GB. Quantisierungsdiagramm (Q3, Q4, Q5, Q8), realer Overhead und Kaufempfehlungen. Vollständige Modellgrößentabelle: von 3,8B (2,1 GB) bis 405B-Modellen.

TL;DR

16 GB: Nur 7B-Modelle (knapp)
36 GB: 13B komfortabel, 34B Q4 knapp
64 GB: 34B Q5 komfortabel
128 GB: 70B Q5 komfortabel
Aufrüstung nach dem Kauf nicht möglich — beim Kauf maximale Ausstattung wählen

Wichtigste Erkenntnisse

Unified Memory = gemeinsam für CPU und GPU — alles davon für LLM-Modelle verfügbar.
RTX 4070 hat 12 GB VRAM + 32 GB RAM (getrennt). Mac hat Unified Memory = alles verfügbar.
64-GB-Mac hat nach macOS-Overhead (4–8 GB) ~56–60 GB für LLMs.
Swap existiert: macOS nutzt SSD, wenn Modell freien Speicher übersteigt. Funktioniert, aber 5–10× langsamer.
Modellgröße in GB variiert nach Quantisierung: Llama 3.3 8B ist 16 GB FP16, 5 GB Q4, 8,5 GB Q8.
Regel: Maximalen Speicher kaufen — Aufrüstung nach dem Kauf nicht möglich. Speicherkosten beim Kauf betragen 5–10%; Ersatz des gesamten Macs kostet später 100 %.

📍 In einem Satz

Für Apple Silicon lokale LLMs: 16 GB nur für 7B (eng), 36 GB für 13B komfortabel, 64 GB für 70B Q3 (eng) oder 34B Q5 (komfortabel), 128 GB für 70B Q5 komfortabel — beim Kauf das Maximum wählen, da der Speicher nicht aufrüstbar ist.

💬 In einfachen Worten

Unified Memory auf einem Mac wird zwischen CPU, GPU und KI-Engine geteilt. Faustregel: 7B-Modell bei Q4 braucht ca. 5 GB; 14B ca. 9 GB; 70B bei Q4 ca. 42 GB. Dazu 8 GB für das Betriebssystem. Passt das Modell nicht rein, wird auf die Festplatte ausgelagert — 100× langsamer.

Wie Unified Memory für LLMs funktioniert

Unified Memory wird zwischen CPU und GPU geteilt — der gesamte Speicher steht dem Modell zur Verfügung. Anders als bei diskreten GPUs (RTX 4070 hat 12 GB VRAM + 32 GB RAM getrennt) teilt Apple Silicon einen gemeinsamen Pool. 64-GB-Mac = 64 GB für das Modell verfügbar. macOS und Apps verbrauchen 4–8 GB, sodass 56–60 GB für LLM verbleiben.

Haupttabelle: Speicherstufe vs Modellgröße

Model	Parameters	Q3_K	Q4_K_M	Q5_K_M	Q8	FP16
Phi-4	3,8B	2,1 GB	2,5 GB	2,9 GB	4,0 GB	7,6 GB
Mistral Small	7B	3,8 GB	4,5 GB	5,2 GB	7,5 GB	14 GB
Llama 3.3 8B	8B	4,2 GB	5,0 GB	5,8 GB	8,5 GB	16 GB
Llama 3.3 13B	13B	7,0 GB	8,5 GB	9,8 GB	14 GB	26 GB
Qwen3 34B	34B	17 GB	20 GB	24 GB	36 GB	68 GB
Llama 3.3 70B	70B	36 GB	42 GB	49 GB	74 GB	140 GB
Llama 3.3 405B	405B	200+ GB	240 GB	280 GB	410 GB	810 GB

4–8 GB für macOS-Overhead addieren, um zu berechnen, ob das Modell auf Ihrem Mac passt.

Passt / Passt nicht Matrix

Modell + Quantisierung	16 GB	36 GB	64 GB	128 GB
Phi-4 Q4 (2,5 GB)	✓ Reichlich	✓ Reichlich	✓ Reichlich	✓ Reichlich
Llama 3.3 8B Q4 (5 GB)	⚠️ Knapp	✓ Komfortabel	✓ Reichlich	✓ Reichlich
Llama 3.3 8B Q8 (8,5 GB)	✗ Passt nicht	✓ Komfortabel	✓ Reichlich	✓ Reichlich
Llama 3.3 13B Q4 (8,5 GB)	✗ Passt nicht	✓ Komfortabel	✓ Reichlich	✓ Reichlich
Qwen3 34B Q4 (20 GB)	✗ Passt nicht	⚠️ Knapp	✓ Komfortabel	✓ Reichlich
Qwen3 34B Q5 (24 GB)	✗ Passt nicht	✗ Passt nicht	✓ Komfortabel	✓ Reichlich
Llama 3.3 70B Q3 (36 GB)	✗ Passt nicht	✗ Passt nicht	⚠️ Knapp	✓ Komfortabel
Llama 3.3 70B Q4 (42 GB)	✗ Passt nicht	✗ Passt nicht	⚠️ Sehr knapp	✓ Komfortabel
Llama 3.3 70B Q5 (49 GB)	✗ Passt nicht	✗ Passt nicht	✗ Passt nicht	✓ Komfortabel
Llama 3.3 70B Q8 (74 GB)	✗ Passt nicht	✗ Passt nicht	✗ Passt nicht	✓ Passt

✓ Reichlich = 4+ GB frei | ✓ Komfortabel = 2–4 GB frei | ⚠️ Knapp = unter 2 GB frei | ✗ Passt nicht = Swap oder Absturz

Was in jede Speicherstufe passt (Praxis)

1
16 GB (M5 base, MacBook Air)
Why it matters: Llama 3.3 8B Q4 passt (5 GB Modell + 8 GB OS = 13 GB) ✓, aber knapp. Llama 8B Q8 passt nicht ohne Swap. Whisper small passt daneben.
2
36 GB (M5 Pro Basis)
Why it matters: Llama 3.3 8B Q8 passt komfortabel. Llama 13B Q4 passt. Qwen3 34B Q4 passt knapp (20 GB + 8 GB OS = 28 GB). Multi-Modell: Whisper + LLaVA + TTS passen ✓
3
64 GB (M5 Pro max)
Why it matters: Qwen3 34B Q5 passt komfortabel (24 GB). Llama 70B Q3 passt kaum. Multi-Modell-Stacks haben reichlich Platz.
4
128 GB (M5 Max)
Why it matters: Llama 3.3 70B Q5 passt komfortabel (49 GB). 70B Q8 passt (74 GB). Multimodal: Whisper + 90B-Vision-Modell + 8B LLM passen gleichzeitig ✓

Speicherbedarf für Multi-Modell-Stacks

Anwendungsfall (Stack)	Benötigter Speicher
Nur LLM (Llama 8B Q4)	5 GB + OS = 13 GB
LLM + STT (Llama 8B + Whisper large-v3)	8 GB + OS = 16 GB
LLM + STT + TTS (Sprachassistent)	9 GB + OS = 17 GB
LLM + Vision (Llama 8B + LLaVA 7B)	11 GB + OS = 19 GB
Vollständig multimodal (LLM + Vision + STT + TTS)	14 GB + OS = 22 GB
LLM + RAG (Llama 8B + Embeddings + ChromaDB)	8 GB + OS = 16 GB
Schwer multimodal (Llama 70B Q4 + Vision 90B)	100+ GB

Stacks über 22 GB benötigen mindestens 36-GB-Mac. Stacks über 50 GB benötigen mindestens 64-GB-Mac. Der schwere multimodale Stack funktioniert nur auf 128-GB-M5-Max.

Kontextfenster erzeugt zusätzlichen Speicheroverhead

Der KV-Cache skaliert mit der Kontextlänge — je länger das Kontextfenster, desto mehr Speicher verbraucht das Modell zur Laufzeit. Dies ist ein häufiges Problem, das ein knappes Setup in den Swap-Betrieb treiben kann.

Llama 3.3 8B bei 8K Kontext: +0,5 GB
Llama 3.3 8B bei 32K Kontext: +2 GB
Llama 3.3 8B bei 128K Kontext: +8 GB
Llama 3.3 70B bei 32K Kontext: +6 GB
Llama 3.3 70B bei 128K Kontext: +24 GB

Maximalen Speicher kaufen — deshalb

Apple-Silicon-Arbeitsspeicher kann nach dem Kauf nicht aufgerüstet werden.
Modellgrößen wachsen: 8B heute → 13–34B Sweet Spot 2027.
16 GB ist für LLMs bereits grenzwertig — mindestens 36 GB empfohlen.
Preisunterschied: 36 GB→64 GB kostet beim Kauf ca. 200 €, spart aber den Kauf eines neuen Macs in 2 Jahren, wenn Modelle 36 GB übersteigen.
Beispiel: M5 Pro 36 GB heute kostet ca. 1.000 €; 64 GB kostet ca. 1.200 €. Neuer Mac in 2 Jahren: 1.500 €+ für dieselbe M5-Pro-64-GB-Konfiguration.

Qualitätsauswirkung der Quantisierung

Q4_K_M (4-Bit): ~1–2 % Qualitätsverlust vs FP16. Für die meisten Anwendungen nicht wahrnehmbar. Beste Standardwahl.

Q5_K_M (5-Bit): ~0,5–1 % Qualitätsverlust. Vernachlässigbar. Empfohlen, wenn freier Speicher vorhanden.

Q8 (8-Bit): ~0,1 % Qualitätsverlust. Im Wesentlichen verlustfrei.

Q3_K (3-Bit): 3–5 % Qualitätsverlust. Bei komplexem Schlussfolgern merklich. Nur für speicherkritische Szenarien akzeptabel.

Sollte ich 36 GB oder 64 GB nehmen?

64 GB nehmen, wenn das Budget es erlaubt (ca. 200 € mehr). 36 GB funktioniert heute, wird aber in 12 Monaten bei wachsenden Modellen eng. 64 GB ist bis 2027–2028 zukunftssicher.

Kann ich den Arbeitsspeicher später aufrüsten?

Nein. Apple-Silicon-Arbeitsspeicher ist verlötet und nicht aufrüstbar. Beim Kauf maximale Ausstattung wählen.

Warum reichen 16 GB nicht aus?

16 GB für LLM + 4–8 GB für macOS = 8–12 GB verfügbar. Llama 8B Q4 benötigt 5 GB, sodass kein Platz für Whisper oder andere Aufgaben bleibt. Zu knapp.

Brauche ich wirklich 128 GB?

Nur wenn regelmäßig 70B-Modelle ausgeführt werden oder gleichzeitig Vision + LLM + STT benötigt werden. Ansonsten sind 64 GB ausreichend.

Reichen 48 GB für lokale LLMs?

Ja — 48 GB (verfügbar auf M4 Pro und einigen M5-Pro-Konfigurationen) ist eine komfortable Mitte. Führt alle 34B-Modelle aus, 70B Q3 am Rand, und vollständige multimodale Stacks. Besser als 36 GB; wenn 64 GB erschwinglich sind, lohnt sich die Zukunftssicherheit.

Wie viel Arbeitsspeicher wird für Llama 3.3 70B lokal benötigt?

Minimum 48 GB (Q3-Quantisierung, merklicher Qualitätsverlust). Empfohlen 64 GB (Q4-Quantisierung, knappes Fit). Komfortabel 128 GB (Q5/Q8-Quantisierung, hohe Qualität). Die 64-GB-Stufe erfordert sorgfältiges Speichermanagement; 128 GB ist die einzige sorgenfreie Option für 70B.

Benötige ich 2026 128 GB für lokale KI?

Nur wenn regelmäßig 70B-Modelle ausgeführt werden oder gleichzeitig Vision + LLM + STT-Stacks benötigt werden. Für den normalen LLM-Betrieb (8B–34B, RAG, Coding-Unterstützung) ist M5 Pro 64 GB der Sweet Spot. 128 GB ist ein 2–3× Preissprung für marginalen Mehrwert, außer wenn 70B spezifisch benötigt wird.

Spielt der Unified Memory für die DSGVO-Compliance eine Rolle?

Ja, positiv. Da Unified Memory ausschließlich lokale Verarbeitung ermöglicht, verlassen personenbezogene Daten das Gerät nicht. Dies entspricht den DSGVO-Anforderungen zur Datensparsamkeit (Art. 5) und macht lokale Verarbeitung zur empfohlenen Option für datenschutzsensible Aufgaben gemäß BSI-Grundschutz.

Welche Speicherkonfiguration empfiehlt sich für KMU in Deutschland?

Für Solo-Entwickler: M5 Pro 36 GB (ca. 1.000 €) reicht für 13B-Modelle. Für Teams, die 34B-Modelle täglich nutzen: M5 Pro 64 GB (ca. 1.200 €). Für Teams mit 70B-Anforderungen oder multimodalen Workflows: M5 Max 128 GB (ca. 4.000 €). Der Aufpreis ist im Vergleich zu API-Kosten von 50–200 €/Monat/Nutzer schnell amortisiert.

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Mac mit dem richtigen Arbeitsspeicher gekauft? Vergleichen Sie die Antworten Ihres lokalen LLMs mit GPT-4, Claude, Gemini und 22 weiteren Modellen mit PromptQuorum — überprüfen Sie, ob Ihre Speicherkonfiguration Cloud-vergleichbare Qualität für Ihre Aufgaben liefert.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs