Wichtigste Erkenntnisse
- Apple Silicon eliminiert VRAM-Grenzen — der gesamte 32–128 GB einheitliche Speicher steht dem Modell zur Verfügung. RTX 4090 hat eine harte 24 GB-Grenze.
- M5 Pro (64 GB) erzeugt 34B-Modelle bei 15–20 Token/Sekunde. M5 Max (128 GB) erzeugt 70B-Modelle bei 12–18 tok/s. Beides bei 25–70 W Stromverbrauch gegenüber 300–450 W für Desktop-GPUs.
- Metal-GPU-Beschleunigung funktioniert automatisch in Ollama, MLX und llama.cpp. Keine Treiber-Abstimmung erforderlich.
- Speicherbandbreite (M5 Pro 307 GB/s, M5 Max 460–614 GB/s) ist der Engpass, nicht GPU-Kernzahl. M5 Pro liefert etwa 1/3 der RTX-4090-Geschwindigkeit basierend auf reiner Bandbreite.
- Kaufen Sie maximalen Speicher zum Zeitpunkt des Kaufs — kann nach dem Kauf nicht aufgerüstet werden. 36 GB Minimum empfohlen; 64 GB+ für Zukunftssicherheit bis 2027–2028.
- M5 Pro bietet das beste Preis-Leistungs-Verhältnis. M5 Max ist nur notwendig, wenn Sie regelmäßig 70B-Modelle oder multimodale Stacks (Vision + LLM + TTS) benötigen.
- M5 Ultra wird Ende 2026 erwartet (256 GB, ~1.200 GB/s) und ermöglicht 70B FP16 (verlustfreie Qualität) und 120B+-Modelle ohne Quantisierung.
📍 In einem Satz
Apple M5 Pro (64 GB) läuft mit 8B-Modellen bei 45–55 Tok/s und 34B bei 15–20 Tok/s; M5 Max (128 GB) mit 70B bei 12–18 Tok/s — alles bei 25–70 W ohne VRAM-Grenzen dank Unified Memory.
💬 In einfachen Worten
Unified Memory bedeutet: CPU, GPU und KI-Engine teilen denselben Speicher. Ein Mac mit 128 GB kann alle 128 GB für ein Modell nutzen, anders als eine GPU, die auf ihren VRAM begrenzt ist (max. 24 GB beim RTX 4090). Deshalb können Macs 70B-Modelle ausführen, die kein Consumer-GPU von NVIDIA fassen kann.
- Alle M-Serie-Chips verwenden einheitlichen Speicher (GPU + CPU teilen denselben RAM-Pool) — dies ist der Hauptvorteil gegenüber diskreten GPUs.
- M5 Pro und M5 Max sind die 2026-Empfehlungen für neue Käufer; M4 und älter sind noch lebensfähig, aber weniger zukunftssicher für wachsende Modellgrößen.
- Metal ist Apples GPU-Programmierframework; es ist in macOS integriert und erfordert keine externen Bibliotheken oder Treiber-Updates.
- Framework-Wahl (Ollama, MLX, llama.cpp) beeinflusst die Geschwindigkeit um 0–25%, ändert aber nicht, welche Modelle in den Speicher passen.
- Mac mini M5 Pro (ab 1.200 € mit 64 GB) ist der günstigste Einstiegspunkt und läuft unter Last völlig geräuschlos.
- Durchschnittliche jährliche Stromkosten: Mac mini M5 (ca. 35 €) vs. Desktop RTX 4090 (ca. 350 €) — ein 10× Unterschied in Betriebsausgaben.
Warum Apple Silicon für lokale LLMs?
Apple Silicon zeichnet sich beim lokalen LLM-Inferencing aus einem Grund aus: einheitlicher Speicher. Wenn Sie einen Mac mit 64 GB RAM kaufen, stehen alle 64 GB dem LLM-Modell zur Verfügung. Eine diskrete GPU wie RTX 4090 hat nur 24 GB VRAM (getrennt von Ihrem Arbeitsspeicher) — Modelle größer als 24 GB passen einfach nicht ohne komplexe Multi-GPU-Setups und zusätzliche Hardwarekosten.
Dieser architektonische Unterschied ist transformativ für lokale KI:
- Einheitlicher Speicher: Der gesamte RAM ist verfügbar (32–128 GB). RTX 4090: nur diskreter VRAM (24 GB hartkodiert).
- Metal-Beschleunigung: GPU-Inferencing ohne CUDA-Abhängigkeit oder proprietäre Treiber-Updates.
- Stromeffizienz: 30–70 W unter Last versus 300 W+ für Desktop-GPU. Ermöglicht lüfterloses oder fast lautloses Betrieb.
- Stille: Mac mini und MacBook Air sind bei Leerlauf und unter leichten Lasten völlig lüfterlos. Desktop-GPU-Systeme haben 70+ dB unter Last.
- Keine Treiberverwaltung: Metal funktioniert out-of-the-box auf macOS. Keine CUDA-Versionskonflikte, keine NVIDIA-Treiber-Updates erforderlich.
- Hardwarekosten: M5-Pro-Mac-mini (1.200 €) + 64 GB-Speicher versus Dual-GPU-Setup (4.000 €+) für entsprechende Modellkapazität.
Apple-Silicon-Chips für LLMs — Vollständiger Vergleich
| Chip | Max. Speicher | Speicherbandbreite | GPU-Kerne | LLM-Optimum | Veröffentlicht |
|---|---|---|---|---|---|
| M1 | 16 GB | 68 GB/s | 8 | 7B Q4 | Nov 2020 |
| M1 Pro | 32 GB | 200 GB/s | 16 | 13B Q4 | Okt 2021 |
| M1 Max | 64 GB | 400 GB/s | 32 | 34B Q4 | Okt 2021 |
| M1 Ultra | 128 GB | 800 GB/s | 64 | 70B Q4 | Mär 2022 |
| M2 | 24 GB | 100 GB/s | 10 | 7–13B Q4 | Jun 2022 |
| M2 Pro | 32 GB | 200 GB/s | 19 | 13B Q4 | Jan 2023 |
| M2 Max | 96 GB | 400 GB/s | 38 | 34–70B Q4 | Jan 2023 |
| M2 Ultra | 192 GB | 800 GB/s | 76 | 70B+ Q4 | Jun 2023 |
| M3 | 24 GB | 100 GB/s | 10 | 7–13B Q4 | Okt 2023 |
| M3 Pro | 36 GB | 150 GB/s | 18 | 13–34B Q4 | Okt 2023 |
| M3 Max | 128 GB | 400 GB/s | 40 | 70B Q4 | Okt 2023 |
| M4 | 32 GB | 120 GB/s | 10 | 13B Q4 | Mai 2024 |
| M4 Pro | 48 GB | 273 GB/s | 20 | 34B Q4 | Okt 2024 |
| M4 Max | 128 GB | 546 GB/s | 40 | 70B Q4 | Okt 2024 |
| M5 (Basis) | 32 GB | ~150 GB/s | 10 | 13B Q4 | Okt 2025 |
| M5 Pro | 64 GB | 307 GB/s | ~20 | 34B Q5 | Mär 2026 |
| M5 Max | 128 GB | 460–614 GB/s | ~40 | 70B Q5 | Mär 2026 |
M5 Ultra noch nicht angekündigt — Ende 2026 erwartet. Basierend auf Apples etabliertem Ultra-Muster (2× Max-Spezifikationen) werden ~256 GB Speicher und ~1.200 GB/s Bandbreite projiziert.
Speicherbandbreite ist wichtiger als Speichergröße
LLM-Inferencing ist speicherbandbreitenbegrenzt, nicht rechenbegrenzt. Das bedeutet, die Token-Generierungsgeschwindigkeit skaliert linear mit der Bandbreite, nicht mit GPU-Kernzahl.
M5 Max bei 614 GB/s gegenüber RTX 4090 bei 1.008 GB/s könnte den Anschein erwecken, dass NVIDIA bei Rohbandbreite gewinnt. Aber Apple-Silicon-Benutzer haben den GESAMTEN Speicher verfügbar (keine diskrete VRAM-Grenze), daher können sie größere Modelle laden, die NVIDIA nicht in 24 GB Speicher passen kann. Der echte Vergleich: M5 Max beim Ausführen eines 70B-Modells versus RTX 4090 beim Scheitern, das 70B-Modell überhaupt zu laden.
- M5 Basis (150 GB/s) → ~25–30 tok/s auf Llama 3.3 8B Q4
- M5 Pro (307 GB/s) → ~50–60 tok/s auf Llama 3.3 8B Q4 (2× schneller als M5 Basis wegen 2× Bandbreite)
- M5 Max (614 GB/s) → ~100–120 tok/s auf Llama 3.3 8B Q4
- Fazit: M5 Pro ist genau 2× schneller als M5 Basis beim gleichen Modell, da die Bandbreite verdoppelt wurde. Beim Kauf sollten Sie die Bandbreite gegenüber GPU-Kernzahl priorisieren.
- Lektion: Priorisieren Sie Bandbreite über GPU-Kernen beim Kauf.
Stromeffizienz und Thermalmanagement — Der stille Vorteil
| Setup | Stromverbrauch (Idle) | Stromverbrauch (LLM) | Lautstärke | Wärmestrahlung |
|---|---|---|---|---|
| Mac mini M5 | 5W | 25–35W | Geräuschlos (lüfterlos) | Warm |
| MacBook Air M5 | 3W | 20–30W | Geräuschlos (lüfterlos) | Warm |
| MacBook Pro M5 Pro | 5W | 40–60W | Leise (Lüfter selten) | Kühl |
| Mac Studio M5 Max | 10W | 60–100W | Leise | Kühl |
| Desktop RTX 4090 | 50W | 350–450W | Laut (3 Lüfter) | Heiß |
| Desktop RTX 3060 | 30W | 170–200W | Moderat | Warm |
Jährliche Stromkosten bei 0,15€/kWh, 24/7 KI-Server: Mac mini M5 (~35€/Jahr) vs. Desktop RTX 4090 (~350€/Jahr).
Echte Anwenderszenarien auf Apple Silicon
- 1Coding-Agent
Why it matters: Llama 3.3 8B auf M5 Pro liefert 50 tok/s, Code-Vervollständigung in 1–2 Sekunden. Läuft lautlos im Hintergrund auf MacBook Pro. - 2RAG-Pipeline
Why it matters: Embedding-Modell + Llama 3.3 8B + ChromaDB passt vollständig in 36GB M5-Pro-Speicher. Keine GPU-Grenzen. - 3Sprachassistent
Why it matters: Whisper Metal + Ollama Llama + Piper TTS = 1,2s Latenz auf M5 Pro. Lüfterloses Mac mini für Always-On-Setup geeignet. - 4Multimodal
Why it matters: Whisper + LLaVA 7B Vision + Llama 3.3 8B Reasoning = alle passen in 36GB, gleichzeitige Verarbeitung. - 5Private Schrift
Why it matters: Llama 3.3 70B Q5 auf M5 Max 128GB = höchste Qualität, vollständig offline, keine API-Kosten, null Datenlecks.
Welchen Mac sollten Sie kaufen?
- Unter 800€: Mac mini M5 Basis (32GB) → 7–13B-Modelle bei 20–30 tok/s
- 800–1.200€: Mac mini M5 Pro (64GB) → bis zu 34B-Modelle bei 40–50 tok/s
- 1.500–2.500€: MacBook Pro M5 Pro (64GB) → tragbare KI-Workstation, gleiche Leistung wie Mac mini
- 3.000–5.000€: Mac Studio M5 Max (128GB) → 70B-Modelle bei 15–20 tok/s, Always-On-Server
- Kritisch: Kaufen Sie immer maximalen Speicher — können nicht später aufgerüstet werden. Speicherkosten beim Verkauf betragen 5–10% der Gesamtsumme; einen ganzen Mac später zu ersetzen kostet 100%.
Erste Schritte: Framework-Überblick
- Ollama: einfachste Einrichtung, automatische Metal-Erkennung, keine Konfiguration. REST-API inbegriffen. Beste für Anfänger.
- MLX: Apples nationales Framework, schnellstes Inferencing (15–25% schneller als Ollama), Python-Integration, LoRA-Feinabstimmung. Steilere Lernkurve.
- llama.cpp: plattformübergreifend, meiste Modellformatunterstützung, Metal-Backend. Beste für Integration in größere Anwendungen.
Ist M5 Pro oder M5 Max besser für lokale LLMs?
M5 Pro (64GB) ist das beste Preis-Leistungs-Verhältnis — führt 34B-Modelle gut aus und kostet 1.200–1.500€. M5 Max (3.000€+) ist nur notwendig, wenn Sie häufig 70B-Modelle benötigen. Die meisten Benutzer sind mit M5 Pro zufrieden.
Kann ich den Speicher nach dem Kauf eines Mac aufgerüsten?
Nein. Apple-Silicon-Speicher ist gelötet und nicht aufrüstbar. Kaufen Sie den maximalen Speicher, den Sie sich leisten können.
Welche deutschen Compliance-Anforderungen sollte ich beachten?
Für lokale Inferencing müssen Sie DSGVO-Artikel 28 erfüllen und BSI-Grundschutz-Kataloge beachten. Lokale Modelle auf Apple Silicon eliminieren Datentransferprobleme, was die Compliance vereinfacht.
Kann das M5 Pro mit RTX 4090 konkurrieren?
Bei Modellen, die in 24GB VRAM passen, ist RTX 4090 20–30% schneller. Bei 70B-Modellen gewinnt M5 Pro deutlich, weil RTX 4090 sie nicht laden kann (24GB-Grenze).