TL;DR
- 16 GB: Nur 7B-Modelle (knapp)
- 36 GB: 13B komfortabel, 34B Q4 knapp
- 64 GB: 34B Q5 komfortabel
- 128 GB: 70B Q5 komfortabel
- Aufrüstung nach dem Kauf nicht möglich — beim Kauf maximale Ausstattung wählen
Wichtigste Erkenntnisse
- Unified Memory = gemeinsam für CPU und GPU — alles davon für LLM-Modelle verfügbar.
- RTX 4070 hat 12 GB VRAM + 32 GB RAM (getrennt). Mac hat Unified Memory = alles verfügbar.
- 64-GB-Mac hat nach macOS-Overhead (4–8 GB) ~56–60 GB für LLMs.
- Swap existiert: macOS nutzt SSD, wenn Modell freien Speicher übersteigt. Funktioniert, aber 5–10× langsamer.
- Modellgröße in GB variiert nach Quantisierung: Llama 3.3 8B ist 16 GB FP16, 5 GB Q4, 8,5 GB Q8.
- Regel: Maximalen Speicher kaufen — Aufrüstung nach dem Kauf nicht möglich. Speicherkosten beim Kauf betragen 5–10%; Ersatz des gesamten Macs kostet später 100 %.
📍 In einem Satz
Für Apple Silicon lokale LLMs: 16 GB nur für 7B (eng), 36 GB für 13B komfortabel, 64 GB für 70B Q3 (eng) oder 34B Q5 (komfortabel), 128 GB für 70B Q5 komfortabel — beim Kauf das Maximum wählen, da der Speicher nicht aufrüstbar ist.
💬 In einfachen Worten
Unified Memory auf einem Mac wird zwischen CPU, GPU und KI-Engine geteilt. Faustregel: 7B-Modell bei Q4 braucht ca. 5 GB; 14B ca. 9 GB; 70B bei Q4 ca. 42 GB. Dazu 8 GB für das Betriebssystem. Passt das Modell nicht rein, wird auf die Festplatte ausgelagert — 100× langsamer.
Wie Unified Memory für LLMs funktioniert
Unified Memory wird zwischen CPU und GPU geteilt — der gesamte Speicher steht dem Modell zur Verfügung. Anders als bei diskreten GPUs (RTX 4070 hat 12 GB VRAM + 32 GB RAM getrennt) teilt Apple Silicon einen gemeinsamen Pool. 64-GB-Mac = 64 GB für das Modell verfügbar. macOS und Apps verbrauchen 4–8 GB, sodass 56–60 GB für LLM verbleiben.
Haupttabelle: Speicherstufe vs Modellgröße
| Model | Parameters | Q3_K | Q4_K_M | Q5_K_M | Q8 | FP16 |
|---|---|---|---|---|---|---|
| Phi-4 | 3,8B | 2,1 GB | 2,5 GB | 2,9 GB | 4,0 GB | 7,6 GB |
| Mistral Small | 7B | 3,8 GB | 4,5 GB | 5,2 GB | 7,5 GB | 14 GB |
| Llama 3.3 8B | 8B | 4,2 GB | 5,0 GB | 5,8 GB | 8,5 GB | 16 GB |
| Llama 3.3 13B | 13B | 7,0 GB | 8,5 GB | 9,8 GB | 14 GB | 26 GB |
| Qwen3 34B | 34B | 17 GB | 20 GB | 24 GB | 36 GB | 68 GB |
| Llama 3.3 70B | 70B | 36 GB | 42 GB | 49 GB | 74 GB | 140 GB |
| Llama 3.3 405B | 405B | 200+ GB | 240 GB | 280 GB | 410 GB | 810 GB |
4–8 GB für macOS-Overhead addieren, um zu berechnen, ob das Modell auf Ihrem Mac passt.
Passt / Passt nicht Matrix
| Modell + Quantisierung | 16 GB | 36 GB | 64 GB | 128 GB |
|---|---|---|---|---|
| Phi-4 Q4 (2,5 GB) | ✓ Reichlich | ✓ Reichlich | ✓ Reichlich | ✓ Reichlich |
| Llama 3.3 8B Q4 (5 GB) | ⚠️ Knapp | ✓ Komfortabel | ✓ Reichlich | ✓ Reichlich |
| Llama 3.3 8B Q8 (8,5 GB) | ✗ Passt nicht | ✓ Komfortabel | ✓ Reichlich | ✓ Reichlich |
| Llama 3.3 13B Q4 (8,5 GB) | ✗ Passt nicht | ✓ Komfortabel | ✓ Reichlich | ✓ Reichlich |
| Qwen3 34B Q4 (20 GB) | ✗ Passt nicht | ⚠️ Knapp | ✓ Komfortabel | ✓ Reichlich |
| Qwen3 34B Q5 (24 GB) | ✗ Passt nicht | ✗ Passt nicht | ✓ Komfortabel | ✓ Reichlich |
| Llama 3.3 70B Q3 (36 GB) | ✗ Passt nicht | ✗ Passt nicht | ⚠️ Knapp | ✓ Komfortabel |
| Llama 3.3 70B Q4 (42 GB) | ✗ Passt nicht | ✗ Passt nicht | ⚠️ Sehr knapp | ✓ Komfortabel |
| Llama 3.3 70B Q5 (49 GB) | ✗ Passt nicht | ✗ Passt nicht | ✗ Passt nicht | ✓ Komfortabel |
| Llama 3.3 70B Q8 (74 GB) | ✗ Passt nicht | ✗ Passt nicht | ✗ Passt nicht | ✓ Passt |
✓ Reichlich = 4+ GB frei | ✓ Komfortabel = 2–4 GB frei | ⚠️ Knapp = unter 2 GB frei | ✗ Passt nicht = Swap oder Absturz
Was in jede Speicherstufe passt (Praxis)
- 116 GB (M5 base, MacBook Air)
Why it matters: Llama 3.3 8B Q4 passt (5 GB Modell + 8 GB OS = 13 GB) ✓, aber knapp. Llama 8B Q8 passt nicht ohne Swap. Whisper small passt daneben. - 236 GB (M5 Pro Basis)
Why it matters: Llama 3.3 8B Q8 passt komfortabel. Llama 13B Q4 passt. Qwen3 34B Q4 passt knapp (20 GB + 8 GB OS = 28 GB). Multi-Modell: Whisper + LLaVA + TTS passen ✓ - 364 GB (M5 Pro max)
Why it matters: Qwen3 34B Q5 passt komfortabel (24 GB). Llama 70B Q3 passt kaum. Multi-Modell-Stacks haben reichlich Platz. - 4128 GB (M5 Max)
Why it matters: Llama 3.3 70B Q5 passt komfortabel (49 GB). 70B Q8 passt (74 GB). Multimodal: Whisper + 90B-Vision-Modell + 8B LLM passen gleichzeitig ✓
Speicherbedarf für Multi-Modell-Stacks
| Anwendungsfall (Stack) | Benötigter Speicher |
|---|---|
| Nur LLM (Llama 8B Q4) | 5 GB + OS = 13 GB |
| LLM + STT (Llama 8B + Whisper large-v3) | 8 GB + OS = 16 GB |
| LLM + STT + TTS (Sprachassistent) | 9 GB + OS = 17 GB |
| LLM + Vision (Llama 8B + LLaVA 7B) | 11 GB + OS = 19 GB |
| Vollständig multimodal (LLM + Vision + STT + TTS) | 14 GB + OS = 22 GB |
| LLM + RAG (Llama 8B + Embeddings + ChromaDB) | 8 GB + OS = 16 GB |
| Schwer multimodal (Llama 70B Q4 + Vision 90B) | 100+ GB |
Stacks über 22 GB benötigen mindestens 36-GB-Mac. Stacks über 50 GB benötigen mindestens 64-GB-Mac. Der schwere multimodale Stack funktioniert nur auf 128-GB-M5-Max.
Kontextfenster erzeugt zusätzlichen Speicheroverhead
Der KV-Cache skaliert mit der Kontextlänge — je länger das Kontextfenster, desto mehr Speicher verbraucht das Modell zur Laufzeit. Dies ist ein häufiges Problem, das ein knappes Setup in den Swap-Betrieb treiben kann.
- Llama 3.3 8B bei 8K Kontext: +0,5 GB
- Llama 3.3 8B bei 32K Kontext: +2 GB
- Llama 3.3 8B bei 128K Kontext: +8 GB
- Llama 3.3 70B bei 32K Kontext: +6 GB
- Llama 3.3 70B bei 128K Kontext: +24 GB
Maximalen Speicher kaufen — deshalb
- Apple-Silicon-Arbeitsspeicher kann nach dem Kauf nicht aufgerüstet werden.
- Modellgrößen wachsen: 8B heute → 13–34B Sweet Spot 2027.
- 16 GB ist für LLMs bereits grenzwertig — mindestens 36 GB empfohlen.
- Preisunterschied: 36 GB→64 GB kostet beim Kauf ca. 200 €, spart aber den Kauf eines neuen Macs in 2 Jahren, wenn Modelle 36 GB übersteigen.
- Beispiel: M5 Pro 36 GB heute kostet ca. 1.000 €; 64 GB kostet ca. 1.200 €. Neuer Mac in 2 Jahren: 1.500 €+ für dieselbe M5-Pro-64-GB-Konfiguration.
Qualitätsauswirkung der Quantisierung
Q4_K_M (4-Bit): ~1–2 % Qualitätsverlust vs FP16. Für die meisten Anwendungen nicht wahrnehmbar. Beste Standardwahl.
Q5_K_M (5-Bit): ~0,5–1 % Qualitätsverlust. Vernachlässigbar. Empfohlen, wenn freier Speicher vorhanden.
Q8 (8-Bit): ~0,1 % Qualitätsverlust. Im Wesentlichen verlustfrei.
Q3_K (3-Bit): 3–5 % Qualitätsverlust. Bei komplexem Schlussfolgern merklich. Nur für speicherkritische Szenarien akzeptabel.
Sollte ich 36 GB oder 64 GB nehmen?
64 GB nehmen, wenn das Budget es erlaubt (ca. 200 € mehr). 36 GB funktioniert heute, wird aber in 12 Monaten bei wachsenden Modellen eng. 64 GB ist bis 2027–2028 zukunftssicher.
Kann ich den Arbeitsspeicher später aufrüsten?
Nein. Apple-Silicon-Arbeitsspeicher ist verlötet und nicht aufrüstbar. Beim Kauf maximale Ausstattung wählen.
Warum reichen 16 GB nicht aus?
16 GB für LLM + 4–8 GB für macOS = 8–12 GB verfügbar. Llama 8B Q4 benötigt 5 GB, sodass kein Platz für Whisper oder andere Aufgaben bleibt. Zu knapp.
Brauche ich wirklich 128 GB?
Nur wenn regelmäßig 70B-Modelle ausgeführt werden oder gleichzeitig Vision + LLM + STT benötigt werden. Ansonsten sind 64 GB ausreichend.
Reichen 48 GB für lokale LLMs?
Ja — 48 GB (verfügbar auf M4 Pro und einigen M5-Pro-Konfigurationen) ist eine komfortable Mitte. Führt alle 34B-Modelle aus, 70B Q3 am Rand, und vollständige multimodale Stacks. Besser als 36 GB; wenn 64 GB erschwinglich sind, lohnt sich die Zukunftssicherheit.
Wie viel Arbeitsspeicher wird für Llama 3.3 70B lokal benötigt?
Minimum 48 GB (Q3-Quantisierung, merklicher Qualitätsverlust). Empfohlen 64 GB (Q4-Quantisierung, knappes Fit). Komfortabel 128 GB (Q5/Q8-Quantisierung, hohe Qualität). Die 64-GB-Stufe erfordert sorgfältiges Speichermanagement; 128 GB ist die einzige sorgenfreie Option für 70B.
Benötige ich 2026 128 GB für lokale KI?
Nur wenn regelmäßig 70B-Modelle ausgeführt werden oder gleichzeitig Vision + LLM + STT-Stacks benötigt werden. Für den normalen LLM-Betrieb (8B–34B, RAG, Coding-Unterstützung) ist M5 Pro 64 GB der Sweet Spot. 128 GB ist ein 2–3× Preissprung für marginalen Mehrwert, außer wenn 70B spezifisch benötigt wird.
Spielt der Unified Memory für die DSGVO-Compliance eine Rolle?
Ja, positiv. Da Unified Memory ausschließlich lokale Verarbeitung ermöglicht, verlassen personenbezogene Daten das Gerät nicht. Dies entspricht den DSGVO-Anforderungen zur Datensparsamkeit (Art. 5) und macht lokale Verarbeitung zur empfohlenen Option für datenschutzsensible Aufgaben gemäß BSI-Grundschutz.
Welche Speicherkonfiguration empfiehlt sich für KMU in Deutschland?
Für Solo-Entwickler: M5 Pro 36 GB (ca. 1.000 €) reicht für 13B-Modelle. Für Teams, die 34B-Modelle täglich nutzen: M5 Pro 64 GB (ca. 1.200 €). Für Teams mit 70B-Anforderungen oder multimodalen Workflows: M5 Max 128 GB (ca. 4.000 €). Der Aufpreis ist im Vergleich zu API-Kosten von 50–200 €/Monat/Nutzer schnell amortisiert.