Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Apple Silicon für lokale LLMs 2026: M1 bis M5 Max — Vollständiger Leitfaden
Hardware & Performance

Apple Silicon für lokale LLMs 2026: M1 bis M5 Max — Vollständiger Leitfaden

·15 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Apple Silicon ermöglicht lokales LLM-Inferencing bei geringerem Stromverbrauch (25–70 W) und völliger Stille als Desktop-GPUs, ohne VRAM-Grenzen — der gesamte 32–128 GB einheitliche Speicher steht dem Modell zur Verfügung. M5 Pro (64 GB) erzeugt 34B-Modelle bei 15–20 Token/Sekunde; M5 Max (128 GB) erzeugt 70B-Modelle bei 12–18 tok/s. Der Vorteil des einheitlichen Speichers ist entscheidend: Während RTX 4090 auf 24 GB diskrete VRAM begrenzt ist, können Apple-Silicon-Benutzer gesamte 70B-Parameter-Modelle laden — ein Wechselspiel, das Desktop-GPU-Setups wirtschaftlich zunichte macht.

Vollständiger Leitfaden zum Betreiben lokaler LLMs auf Apple Silicon in 2026. Vergleichen Sie alle M-Serie-Chips (M1 bis M5 Max) mit detaillierten Speicherstufen, Metal-GPU-Beschleunigungstests, Stromverbrauchsanalysen und Modellempfehlungen für jede Mac-Konfiguration. Der einheitliche Speicher beseitigt VRAM-Engpässe, die dedizierte GPUs plagen, und ermöglicht 70B-Modelle auf Verbraucher-Hardware. Erfahren Sie, warum M5 Pro (307 GB/s) 34B-Modelle bei 15–20 Token/Sekunde erzeugt und M5 Max (614 GB/s) 70B-Modelle mit nur 60–100W Stromverbrauch verarbeitet — ein 10× niedrigeres Stromverbrauchsprofil als Desktop-GPU.

Wichtigste Erkenntnisse

  • Apple Silicon eliminiert VRAM-Grenzen — der gesamte 32–128 GB einheitliche Speicher steht dem Modell zur Verfügung. RTX 4090 hat eine harte 24 GB-Grenze.
  • M5 Pro (64 GB) erzeugt 34B-Modelle bei 15–20 Token/Sekunde. M5 Max (128 GB) erzeugt 70B-Modelle bei 12–18 tok/s. Beides bei 25–70 W Stromverbrauch gegenüber 300–450 W für Desktop-GPUs.
  • Metal-GPU-Beschleunigung funktioniert automatisch in Ollama, MLX und llama.cpp. Keine Treiber-Abstimmung erforderlich.
  • Speicherbandbreite (M5 Pro 307 GB/s, M5 Max 460–614 GB/s) ist der Engpass, nicht GPU-Kernzahl. M5 Pro liefert etwa 1/3 der RTX-4090-Geschwindigkeit basierend auf reiner Bandbreite.
  • Kaufen Sie maximalen Speicher zum Zeitpunkt des Kaufs — kann nach dem Kauf nicht aufgerüstet werden. 36 GB Minimum empfohlen; 64 GB+ für Zukunftssicherheit bis 2027–2028.
  • M5 Pro bietet das beste Preis-Leistungs-Verhältnis. M5 Max ist nur notwendig, wenn Sie regelmäßig 70B-Modelle oder multimodale Stacks (Vision + LLM + TTS) benötigen.
  • M5 Ultra wird Ende 2026 erwartet (256 GB, ~1.200 GB/s) und ermöglicht 70B FP16 (verlustfreie Qualität) und 120B+-Modelle ohne Quantisierung.

📍 In einem Satz

Apple M5 Pro (64 GB) läuft mit 8B-Modellen bei 45–55 Tok/s und 34B bei 15–20 Tok/s; M5 Max (128 GB) mit 70B bei 12–18 Tok/s — alles bei 25–70 W ohne VRAM-Grenzen dank Unified Memory.

💬 In einfachen Worten

Unified Memory bedeutet: CPU, GPU und KI-Engine teilen denselben Speicher. Ein Mac mit 128 GB kann alle 128 GB für ein Modell nutzen, anders als eine GPU, die auf ihren VRAM begrenzt ist (max. 24 GB beim RTX 4090). Deshalb können Macs 70B-Modelle ausführen, die kein Consumer-GPU von NVIDIA fassen kann.

  • Alle M-Serie-Chips verwenden einheitlichen Speicher (GPU + CPU teilen denselben RAM-Pool) — dies ist der Hauptvorteil gegenüber diskreten GPUs.
  • M5 Pro und M5 Max sind die 2026-Empfehlungen für neue Käufer; M4 und älter sind noch lebensfähig, aber weniger zukunftssicher für wachsende Modellgrößen.
  • Metal ist Apples GPU-Programmierframework; es ist in macOS integriert und erfordert keine externen Bibliotheken oder Treiber-Updates.
  • Framework-Wahl (Ollama, MLX, llama.cpp) beeinflusst die Geschwindigkeit um 0–25%, ändert aber nicht, welche Modelle in den Speicher passen.
  • Mac mini M5 Pro (ab 1.200 € mit 64 GB) ist der günstigste Einstiegspunkt und läuft unter Last völlig geräuschlos.
  • Durchschnittliche jährliche Stromkosten: Mac mini M5 (ca. 35 €) vs. Desktop RTX 4090 (ca. 350 €) — ein 10× Unterschied in Betriebsausgaben.

Warum Apple Silicon für lokale LLMs?

Apple Silicon zeichnet sich beim lokalen LLM-Inferencing aus einem Grund aus: einheitlicher Speicher. Wenn Sie einen Mac mit 64 GB RAM kaufen, stehen alle 64 GB dem LLM-Modell zur Verfügung. Eine diskrete GPU wie RTX 4090 hat nur 24 GB VRAM (getrennt von Ihrem Arbeitsspeicher) — Modelle größer als 24 GB passen einfach nicht ohne komplexe Multi-GPU-Setups und zusätzliche Hardwarekosten.

Dieser architektonische Unterschied ist transformativ für lokale KI:

  • Einheitlicher Speicher: Der gesamte RAM ist verfügbar (32–128 GB). RTX 4090: nur diskreter VRAM (24 GB hartkodiert).
  • Metal-Beschleunigung: GPU-Inferencing ohne CUDA-Abhängigkeit oder proprietäre Treiber-Updates.
  • Stromeffizienz: 30–70 W unter Last versus 300 W+ für Desktop-GPU. Ermöglicht lüfterloses oder fast lautloses Betrieb.
  • Stille: Mac mini und MacBook Air sind bei Leerlauf und unter leichten Lasten völlig lüfterlos. Desktop-GPU-Systeme haben 70+ dB unter Last.
  • Keine Treiberverwaltung: Metal funktioniert out-of-the-box auf macOS. Keine CUDA-Versionskonflikte, keine NVIDIA-Treiber-Updates erforderlich.
  • Hardwarekosten: M5-Pro-Mac-mini (1.200 €) + 64 GB-Speicher versus Dual-GPU-Setup (4.000 €+) für entsprechende Modellkapazität.

Apple-Silicon-Chips für LLMs — Vollständiger Vergleich

ChipMax. SpeicherSpeicherbandbreiteGPU-KerneLLM-OptimumVeröffentlicht
M116 GB68 GB/s87B Q4Nov 2020
M1 Pro32 GB200 GB/s1613B Q4Okt 2021
M1 Max64 GB400 GB/s3234B Q4Okt 2021
M1 Ultra128 GB800 GB/s6470B Q4Mär 2022
M224 GB100 GB/s107–13B Q4Jun 2022
M2 Pro32 GB200 GB/s1913B Q4Jan 2023
M2 Max96 GB400 GB/s3834–70B Q4Jan 2023
M2 Ultra192 GB800 GB/s7670B+ Q4Jun 2023
M324 GB100 GB/s107–13B Q4Okt 2023
M3 Pro36 GB150 GB/s1813–34B Q4Okt 2023
M3 Max128 GB400 GB/s4070B Q4Okt 2023
M432 GB120 GB/s1013B Q4Mai 2024
M4 Pro48 GB273 GB/s2034B Q4Okt 2024
M4 Max128 GB546 GB/s4070B Q4Okt 2024
M5 (Basis)32 GB~150 GB/s1013B Q4Okt 2025
M5 Pro64 GB307 GB/s~2034B Q5Mär 2026
M5 Max128 GB460–614 GB/s~4070B Q5Mär 2026

M5 Ultra noch nicht angekündigt — Ende 2026 erwartet. Basierend auf Apples etabliertem Ultra-Muster (2× Max-Spezifikationen) werden ~256 GB Speicher und ~1.200 GB/s Bandbreite projiziert.

Speicherbandbreite ist wichtiger als Speichergröße

LLM-Inferencing ist speicherbandbreitenbegrenzt, nicht rechenbegrenzt. Das bedeutet, die Token-Generierungsgeschwindigkeit skaliert linear mit der Bandbreite, nicht mit GPU-Kernzahl.

M5 Max bei 614 GB/s gegenüber RTX 4090 bei 1.008 GB/s könnte den Anschein erwecken, dass NVIDIA bei Rohbandbreite gewinnt. Aber Apple-Silicon-Benutzer haben den GESAMTEN Speicher verfügbar (keine diskrete VRAM-Grenze), daher können sie größere Modelle laden, die NVIDIA nicht in 24 GB Speicher passen kann. Der echte Vergleich: M5 Max beim Ausführen eines 70B-Modells versus RTX 4090 beim Scheitern, das 70B-Modell überhaupt zu laden.

  • M5 Basis (150 GB/s) → ~25–30 tok/s auf Llama 3.3 8B Q4
  • M5 Pro (307 GB/s) → ~50–60 tok/s auf Llama 3.3 8B Q4 (2× schneller als M5 Basis wegen 2× Bandbreite)
  • M5 Max (614 GB/s) → ~100–120 tok/s auf Llama 3.3 8B Q4
  • Fazit: M5 Pro ist genau 2× schneller als M5 Basis beim gleichen Modell, da die Bandbreite verdoppelt wurde. Beim Kauf sollten Sie die Bandbreite gegenüber GPU-Kernzahl priorisieren.
  • Lektion: Priorisieren Sie Bandbreite über GPU-Kernen beim Kauf.

Stromeffizienz und Thermalmanagement — Der stille Vorteil

SetupStromverbrauch (Idle)Stromverbrauch (LLM)LautstärkeWärmestrahlung
Mac mini M55W25–35WGeräuschlos (lüfterlos)Warm
MacBook Air M53W20–30WGeräuschlos (lüfterlos)Warm
MacBook Pro M5 Pro5W40–60WLeise (Lüfter selten)Kühl
Mac Studio M5 Max10W60–100WLeiseKühl
Desktop RTX 409050W350–450WLaut (3 Lüfter)Heiß
Desktop RTX 306030W170–200WModeratWarm

Jährliche Stromkosten bei 0,15€/kWh, 24/7 KI-Server: Mac mini M5 (~35€/Jahr) vs. Desktop RTX 4090 (~350€/Jahr).

Echte Anwenderszenarien auf Apple Silicon

  1. 1
    Coding-Agent
    Why it matters: Llama 3.3 8B auf M5 Pro liefert 50 tok/s, Code-Vervollständigung in 1–2 Sekunden. Läuft lautlos im Hintergrund auf MacBook Pro.
  2. 2
    RAG-Pipeline
    Why it matters: Embedding-Modell + Llama 3.3 8B + ChromaDB passt vollständig in 36GB M5-Pro-Speicher. Keine GPU-Grenzen.
  3. 3
    Sprachassistent
    Why it matters: Whisper Metal + Ollama Llama + Piper TTS = 1,2s Latenz auf M5 Pro. Lüfterloses Mac mini für Always-On-Setup geeignet.
  4. 4
    Multimodal
    Why it matters: Whisper + LLaVA 7B Vision + Llama 3.3 8B Reasoning = alle passen in 36GB, gleichzeitige Verarbeitung.
  5. 5
    Private Schrift
    Why it matters: Llama 3.3 70B Q5 auf M5 Max 128GB = höchste Qualität, vollständig offline, keine API-Kosten, null Datenlecks.

Welchen Mac sollten Sie kaufen?

  • Unter 800€: Mac mini M5 Basis (32GB) → 7–13B-Modelle bei 20–30 tok/s
  • 800–1.200€: Mac mini M5 Pro (64GB) → bis zu 34B-Modelle bei 40–50 tok/s
  • 1.500–2.500€: MacBook Pro M5 Pro (64GB) → tragbare KI-Workstation, gleiche Leistung wie Mac mini
  • 3.000–5.000€: Mac Studio M5 Max (128GB) → 70B-Modelle bei 15–20 tok/s, Always-On-Server
  • Kritisch: Kaufen Sie immer maximalen Speicher — können nicht später aufgerüstet werden. Speicherkosten beim Verkauf betragen 5–10% der Gesamtsumme; einen ganzen Mac später zu ersetzen kostet 100%.

Erste Schritte: Framework-Überblick

  • Ollama: einfachste Einrichtung, automatische Metal-Erkennung, keine Konfiguration. REST-API inbegriffen. Beste für Anfänger.
  • MLX: Apples nationales Framework, schnellstes Inferencing (15–25% schneller als Ollama), Python-Integration, LoRA-Feinabstimmung. Steilere Lernkurve.
  • llama.cpp: plattformübergreifend, meiste Modellformatunterstützung, Metal-Backend. Beste für Integration in größere Anwendungen.

Ist M5 Pro oder M5 Max besser für lokale LLMs?

M5 Pro (64GB) ist das beste Preis-Leistungs-Verhältnis — führt 34B-Modelle gut aus und kostet 1.200–1.500€. M5 Max (3.000€+) ist nur notwendig, wenn Sie häufig 70B-Modelle benötigen. Die meisten Benutzer sind mit M5 Pro zufrieden.

Kann ich den Speicher nach dem Kauf eines Mac aufgerüsten?

Nein. Apple-Silicon-Speicher ist gelötet und nicht aufrüstbar. Kaufen Sie den maximalen Speicher, den Sie sich leisten können.

Welche deutschen Compliance-Anforderungen sollte ich beachten?

Für lokale Inferencing müssen Sie DSGVO-Artikel 28 erfüllen und BSI-Grundschutz-Kataloge beachten. Lokale Modelle auf Apple Silicon eliminieren Datentransferprobleme, was die Compliance vereinfacht.

Kann das M5 Pro mit RTX 4090 konkurrieren?

Bei Modellen, die in 24GB VRAM passen, ist RTX 4090 20–30% schneller. Bei 70B-Modellen gewinnt M5 Pro deutlich, weil RTX 4090 sie nicht laden kann (24GB-Grenze).

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs