Startseite/Lokale LLMs/Apple Silicon für lokale LLMs 2026: M1 bis M5 Max — Vollständiger Leitfaden

Hardware & Performance

Apple Silicon für lokale LLMs 2026: M1 bis M5 Max — Vollständiger Leitfaden

Name: PromptQuorum
Availability: PreOrder

Aktualisiert: Juni 2026·15 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Apple Silicon ermöglicht lokales LLM-Inferencing bei geringerem Stromverbrauch (25–70 W) und völliger Stille als Desktop-GPUs, ohne VRAM-Grenzen — der gesamte 32–128 GB einheitliche Speicher steht dem Modell zur Verfügung. M5 Pro (64 GB) erzeugt 34B-Modelle bei 15–20 Token/Sekunde; M5 Max (128 GB) erzeugt 70B-Modelle bei 12–18 tok/s. Der Vorteil des einheitlichen Speichers ist entscheidend: Während RTX 4090 auf 24 GB diskrete VRAM begrenzt ist, können Apple-Silicon-Benutzer gesamte 70B-Parameter-Modelle laden — ein Wechselspiel, das Desktop-GPU-Setups wirtschaftlich zunichte macht.

Vollständiger Leitfaden zum Betreiben lokaler LLMs auf Apple Silicon in 2026. Vergleichen Sie alle M-Serie-Chips (M1 bis M5 Max) mit detaillierten Speicherstufen, Metal-GPU-Beschleunigungstests, Stromverbrauchsanalysen und Modellempfehlungen für jede Mac-Konfiguration. Der einheitliche Speicher beseitigt VRAM-Engpässe, die dedizierte GPUs plagen, und ermöglicht 70B-Modelle auf Verbraucher-Hardware. Erfahren Sie, warum M5 Pro (307 GB/s) 34B-Modelle bei 15–20 Token/Sekunde erzeugt und M5 Max (614 GB/s) 70B-Modelle mit nur 60–100W Stromverbrauch verarbeitet — ein 10× niedrigeres Stromverbrauchsprofil als Desktop-GPU.

Wichtigste Erkenntnisse

Apple Silicon eliminiert VRAM-Grenzen — der gesamte 32–128 GB einheitliche Speicher steht dem Modell zur Verfügung. RTX 4090 hat eine harte 24 GB-Grenze.
M5 Pro (64 GB) erzeugt 34B-Modelle bei 15–20 Token/Sekunde. M5 Max (128 GB) erzeugt 70B-Modelle bei 12–18 tok/s. Beides bei 25–70 W Stromverbrauch gegenüber 300–450 W für Desktop-GPUs.
Metal-GPU-Beschleunigung funktioniert automatisch in Ollama, MLX und llama.cpp. Keine Treiber-Abstimmung erforderlich.
Speicherbandbreite (M5 Pro 307 GB/s, M5 Max 460–614 GB/s) ist der Engpass, nicht GPU-Kernzahl. M5 Pro liefert etwa 1/3 der RTX-4090-Geschwindigkeit basierend auf reiner Bandbreite.
Kaufen Sie maximalen Speicher zum Zeitpunkt des Kaufs — kann nach dem Kauf nicht aufgerüstet werden. 36 GB Minimum empfohlen; 64 GB+ für Zukunftssicherheit bis 2027–2028.
M5 Pro bietet das beste Preis-Leistungs-Verhältnis. M5 Max ist nur notwendig, wenn Sie regelmäßig 70B-Modelle oder multimodale Stacks (Vision + LLM + TTS) benötigen.
M5 Ultra wird Ende 2026 erwartet (256 GB, ~1.200 GB/s) und ermöglicht 70B FP16 (verlustfreie Qualität) und 120B+-Modelle ohne Quantisierung.

📍 In einem Satz

Apple M5 Pro (64 GB) läuft mit 8B-Modellen bei 45–55 Tok/s und 34B bei 15–20 Tok/s; M5 Max (128 GB) mit 70B bei 12–18 Tok/s — alles bei 25–70 W ohne VRAM-Grenzen dank Unified Memory.

💬 In einfachen Worten

Unified Memory bedeutet: CPU, GPU und KI-Engine teilen denselben Speicher. Ein Mac mit 128 GB kann alle 128 GB für ein Modell nutzen, anders als eine GPU, die auf ihren VRAM begrenzt ist (max. 24 GB beim RTX 4090). Deshalb können Macs 70B-Modelle ausführen, die kein Consumer-GPU von NVIDIA fassen kann.

Alle M-Serie-Chips verwenden einheitlichen Speicher (GPU + CPU teilen denselben RAM-Pool) — dies ist der Hauptvorteil gegenüber diskreten GPUs.
M5 Pro und M5 Max sind die 2026-Empfehlungen für neue Käufer; M4 und älter sind noch lebensfähig, aber weniger zukunftssicher für wachsende Modellgrößen.
Metal ist Apples GPU-Programmierframework; es ist in macOS integriert und erfordert keine externen Bibliotheken oder Treiber-Updates.
Framework-Wahl (Ollama, MLX, llama.cpp) beeinflusst die Geschwindigkeit um 0–25%, ändert aber nicht, welche Modelle in den Speicher passen.
Mac mini M5 Pro (ab 1.200 € mit 64 GB) ist der günstigste Einstiegspunkt und läuft unter Last völlig geräuschlos.
Durchschnittliche jährliche Stromkosten: Mac mini M5 (ca. 35 €) vs. Desktop RTX 4090 (ca. 350 €) — ein 10× Unterschied in Betriebsausgaben.

Warum Apple Silicon für lokale LLMs?

Apple Silicon zeichnet sich beim lokalen LLM-Inferencing aus einem Grund aus: einheitlicher Speicher. Wenn Sie einen Mac mit 64 GB RAM kaufen, stehen alle 64 GB dem LLM-Modell zur Verfügung. Eine diskrete GPU wie RTX 4090 hat nur 24 GB VRAM (getrennt von Ihrem Arbeitsspeicher) — Modelle größer als 24 GB passen einfach nicht ohne komplexe Multi-GPU-Setups und zusätzliche Hardwarekosten.

Dieser architektonische Unterschied ist transformativ für lokale KI:

Einheitlicher Speicher: Der gesamte RAM ist verfügbar (32–128 GB). RTX 4090: nur diskreter VRAM (24 GB hartkodiert).
Metal-Beschleunigung: GPU-Inferencing ohne CUDA-Abhängigkeit oder proprietäre Treiber-Updates.
Stromeffizienz: 30–70 W unter Last versus 300 W+ für Desktop-GPU. Ermöglicht lüfterloses oder fast lautloses Betrieb.
Stille: Mac mini und MacBook Air sind bei Leerlauf und unter leichten Lasten völlig lüfterlos. Desktop-GPU-Systeme haben 70+ dB unter Last.
Keine Treiberverwaltung: Metal funktioniert out-of-the-box auf macOS. Keine CUDA-Versionskonflikte, keine NVIDIA-Treiber-Updates erforderlich.
Hardwarekosten: M5-Pro-Mac-mini (1.200 €) + 64 GB-Speicher versus Dual-GPU-Setup (4.000 €+) für entsprechende Modellkapazität.

Apple-Silicon-Chips für LLMs — Vollständiger Vergleich

Chip	Max. Speicher	Speicherbandbreite	GPU-Kerne	LLM-Optimum	Veröffentlicht
M1	16 GB	68 GB/s	8	7B Q4	Nov 2020
M1 Pro	32 GB	200 GB/s	16	13B Q4	Okt 2021
M1 Max	64 GB	400 GB/s	32	34B Q4	Okt 2021
M1 Ultra	128 GB	800 GB/s	64	70B Q4	Mär 2022
M2	24 GB	100 GB/s	10	7–13B Q4	Jun 2022
M2 Pro	32 GB	200 GB/s	19	13B Q4	Jan 2023
M2 Max	96 GB	400 GB/s	38	34–70B Q4	Jan 2023
M2 Ultra	192 GB	800 GB/s	76	70B+ Q4	Jun 2023
M3	24 GB	100 GB/s	10	7–13B Q4	Okt 2023
M3 Pro	36 GB	150 GB/s	18	13–34B Q4	Okt 2023
M3 Max	128 GB	400 GB/s	40	70B Q4	Okt 2023
M4	32 GB	120 GB/s	10	13B Q4	Mai 2024
M4 Pro	48 GB	273 GB/s	20	34B Q4	Okt 2024
M4 Max	128 GB	546 GB/s	40	70B Q4	Okt 2024
M5 (Basis)	32 GB	~150 GB/s	10	13B Q4	Okt 2025
M5 Pro	64 GB	307 GB/s	~20	34B Q5	Mär 2026
M5 Max	128 GB	460–614 GB/s	~40	70B Q5	Mär 2026

M5 Ultra noch nicht angekündigt — Ende 2026 erwartet. Basierend auf Apples etabliertem Ultra-Muster (2× Max-Spezifikationen) werden ~256 GB Speicher und ~1.200 GB/s Bandbreite projiziert.

Speicherbandbreite ist wichtiger als Speichergröße

LLM-Inferencing ist speicherbandbreitenbegrenzt, nicht rechenbegrenzt. Das bedeutet, die Token-Generierungsgeschwindigkeit skaliert linear mit der Bandbreite, nicht mit GPU-Kernzahl.

M5 Max bei 614 GB/s gegenüber RTX 4090 bei 1.008 GB/s könnte den Anschein erwecken, dass NVIDIA bei Rohbandbreite gewinnt. Aber Apple-Silicon-Benutzer haben den GESAMTEN Speicher verfügbar (keine diskrete VRAM-Grenze), daher können sie größere Modelle laden, die NVIDIA nicht in 24 GB Speicher passen kann. Der echte Vergleich: M5 Max beim Ausführen eines 70B-Modells versus RTX 4090 beim Scheitern, das 70B-Modell überhaupt zu laden.

M5 Basis (150 GB/s) → ~25–30 tok/s auf Llama 3.3 8B Q4
M5 Pro (307 GB/s) → ~50–60 tok/s auf Llama 3.3 8B Q4 (2× schneller als M5 Basis wegen 2× Bandbreite)
M5 Max (614 GB/s) → ~100–120 tok/s auf Llama 3.3 8B Q4
Fazit: M5 Pro ist genau 2× schneller als M5 Basis beim gleichen Modell, da die Bandbreite verdoppelt wurde. Beim Kauf sollten Sie die Bandbreite gegenüber GPU-Kernzahl priorisieren.
Lektion: Priorisieren Sie Bandbreite über GPU-Kernen beim Kauf.

Stromeffizienz und Thermalmanagement — Der stille Vorteil

Setup	Stromverbrauch (Idle)	Stromverbrauch (LLM)	Lautstärke	Wärmestrahlung
Mac mini M5	5W	25–35W	Geräuschlos (lüfterlos)	Warm
MacBook Air M5	3W	20–30W	Geräuschlos (lüfterlos)	Warm
MacBook Pro M5 Pro	5W	40–60W	Leise (Lüfter selten)	Kühl
Mac Studio M5 Max	10W	60–100W	Leise	Kühl
Desktop RTX 4090	50W	350–450W	Laut (3 Lüfter)	Heiß
Desktop RTX 3060	30W	170–200W	Moderat	Warm

Jährliche Stromkosten bei 0,15€/kWh, 24/7 KI-Server: Mac mini M5 (~35€/Jahr) vs. Desktop RTX 4090 (~350€/Jahr).

Echte Anwenderszenarien auf Apple Silicon

1
Coding-Agent
Why it matters: Llama 3.3 8B auf M5 Pro liefert 50 tok/s, Code-Vervollständigung in 1–2 Sekunden. Läuft lautlos im Hintergrund auf MacBook Pro.
2
RAG-Pipeline
Why it matters: Embedding-Modell + Llama 3.3 8B + ChromaDB passt vollständig in 36GB M5-Pro-Speicher. Keine GPU-Grenzen.
3
Sprachassistent
Why it matters: Whisper Metal + Ollama Llama + Piper TTS = 1,2s Latenz auf M5 Pro. Lüfterloses Mac mini für Always-On-Setup geeignet.
4
Multimodal
Why it matters: Whisper + LLaVA 7B Vision + Llama 3.3 8B Reasoning = alle passen in 36GB, gleichzeitige Verarbeitung.
5
Private Schrift
Why it matters: Llama 3.3 70B Q5 auf M5 Max 128GB = höchste Qualität, vollständig offline, keine API-Kosten, null Datenlecks.

Welchen Mac sollten Sie kaufen?

Unter 800€: Mac mini M5 Basis (32GB) → 7–13B-Modelle bei 20–30 tok/s
800–1.200€: Mac mini M5 Pro (64GB) → bis zu 34B-Modelle bei 40–50 tok/s
1.500–2.500€: MacBook Pro M5 Pro (64GB) → tragbare KI-Workstation, gleiche Leistung wie Mac mini
3.000–5.000€: Mac Studio M5 Max (128GB) → 70B-Modelle bei 15–20 tok/s, Always-On-Server
Kritisch: Kaufen Sie immer maximalen Speicher — können nicht später aufgerüstet werden. Speicherkosten beim Verkauf betragen 5–10% der Gesamtsumme; einen ganzen Mac später zu ersetzen kostet 100%.

Erste Schritte: Framework-Überblick

Ollama: einfachste Einrichtung, automatische Metal-Erkennung, keine Konfiguration. REST-API inbegriffen. Beste für Anfänger.
MLX: Apples nationales Framework, schnellstes Inferencing (15–25% schneller als Ollama), Python-Integration, LoRA-Feinabstimmung. Steilere Lernkurve.
llama.cpp: plattformübergreifend, meiste Modellformatunterstützung, Metal-Backend. Beste für Integration in größere Anwendungen.

Ist M5 Pro oder M5 Max besser für lokale LLMs?

M5 Pro (64GB) ist das beste Preis-Leistungs-Verhältnis — führt 34B-Modelle gut aus und kostet 1.200–1.500€. M5 Max (3.000€+) ist nur notwendig, wenn Sie häufig 70B-Modelle benötigen. Die meisten Benutzer sind mit M5 Pro zufrieden.

Kann ich den Speicher nach dem Kauf eines Mac aufgerüsten?

Nein. Apple-Silicon-Speicher ist gelötet und nicht aufrüstbar. Kaufen Sie den maximalen Speicher, den Sie sich leisten können.

Welche deutschen Compliance-Anforderungen sollte ich beachten?

Für lokale Inferencing müssen Sie DSGVO-Artikel 28 erfüllen und BSI-Grundschutz-Kataloge beachten. Lokale Modelle auf Apple Silicon eliminieren Datentransferprobleme, was die Compliance vereinfacht.

Kann das M5 Pro mit RTX 4090 konkurrieren?

Bei Modellen, die in 24GB VRAM passen, ist RTX 4090 20–30% schneller. Bei 70B-Modellen gewinnt M5 Pro deutlich, weil RTX 4090 sie nicht laden kann (24GB-Grenze).

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs