PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Mac vs Windows vs Linux für lokale LLMs 2026: Apple M5, RTX 5090 und Linux Server verglichen
Betriebssystem-Vergleich

Mac vs Windows vs Linux für lokale LLMs 2026: Apple M5, RTX 5090 und Linux Server verglichen

·8 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

macOS mit Apple M5 Silicon ist das einfachste Setup — Ollama wird in 6 Minuten installiert und läuft Llama 3.1 8B mit 40–60 tok/s auf M5 Pro ohne zusätzliche Hardware. MacBook Pro M5 Max (128 GB, 614 GB/s Bandbreite) verarbeitet 70B mit 25–35 tok/s — eine 4×-Verbesserung gegenüber M4 Max. Windows mit RTX 5090 (32 GB, ca. 3.449 €) läuft 70B mit 40–50 tok/s. Linux ist 1–5% schneller als Windows bei identischer Hardware und kostet ca. 770 € in 3 Jahren für Produktionsserver.

macOS mit Apple M5 Silicon ist das einfachste Setup — Ollama wird in 6 Minuten installiert und läuft Llama 3.1 8B mit 40–60 tok/s auf M5 Pro ohne zusätzliche Hardware. MacBook Pro M5 Max (128 GB, 614 GB/s Bandbreite) verarbeitet 70B mit 25–35 tok/s — eine 4×-Verbesserung gegenüber M4 Max. Windows mit RTX 5090 (32 GB, ca. 3.449 €) läuft 70B mit 40–50 tok/s. Linux ist 1–5% schneller als Windows bei identischer Hardware und kostet ca. 770 € in 3 Jahren für Produktionsserver. Ab April 2026 hat die M5-Generation die Geschwindigkeitslücke zwischen Apple Silicon und diskreten GPUs deutlich geschlossen.

Präsentation: Mac vs Windows vs Linux für lokale LLMs 2026: Apple M5, RTX 5090 und Linux Server verglichen

Das Foliendeck behandelt: M5 Max mit 25–35 tok/s vs RTX 5090 mit 40–50 tok/s, Kostenvergleich über 3 Jahre (ca. 770 € Linux vs 3.499 € Mac), Setup-Komplexität (6 Min. macOS bis 40–70 Min. Linux) und Tool/Framework-Unterstützung nach OS. Laden Sie die PDF als Referenzkarte für macOS vs Windows vs Linux herunter.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • macOS (Apple Silicon): Keine GPU-Kosten, kostenloses Ollama, verarbeitet Llama 3.1 8B mühelos. Best für Casual-Nutzer.
  • Windows (NVIDIA GPU): Industriestandard für GPU-Beschleunigung. CUDA-Ökosystem ausgereift. 150–1.600 € GPU je nach Modellgröße.
  • Linux (NVIDIA oder AMD GPU): Niedrigster Overhead (10–20% weniger Stromverbrauch als Windows), beste für 24/7-Server. Gleiche GPU-Kosten wie Windows.
  • Inferenzgeschwindigkeit: Alle drei OS erzeugen identische Ausgabgeschwindigkeit bei gleicher GPU. Software-Setup-Schwierigkeit unterscheidet sich.
  • Setup-Komplexität: macOS am einfachsten (Ollama One-Click); Windows mittelmäßig (NVIDIA-Treiber erforderlich); Linux erfordert Vertrautheit mit der Befehlszeile.
  • Kosten pro Inferenz: Linux < Windows = macOS (gleich für GPU-beschleunigt; macOS billiger für nur-CPU).
  • Ökosystem: NVIDIA CUDA verfügbar auf Windows/Linux (nicht nativ auf Mac). AMD ROCm auf Linux/Windows. Apple Metal nur auf macOS.
  • Best Choice: Mac für Laptop/Casual-Nutzung; Windows für Desktop-Gaming + LLM; Linux für Server.
macOS vs Windows vs Linux für lokale LLMs: macOS bietet das einfachste Setup ab ca. 1.099 €; Windows liefert maximale GPU-Leistung; Linux bietet die beste Kosten-Leistungs-Quote ab ca. 770 € Gesamtkosten.
macOS vs Windows vs Linux für lokale LLMs: macOS bietet das einfachste Setup ab ca. 1.099 €; Windows liefert maximale GPU-Leistung; Linux bietet die beste Kosten-Leistungs-Quote ab ca. 770 € Gesamtkosten.

Was kostet die Hardware nach Betriebssystem?

HardwareOSPreisLeistung
MacBook Air M5 32 GBmacOSca. 1.099–1.299 €Nur 8B
MacBook Pro M5 Pro 64 GBmacOSca. 3.249–3.749 €70B Q4, 15–20 tok/s
MacBook Pro M5 Max 128 GBmacOSca. 5.694–6.999 €70B Q8, 25–35 tok/s
RTX 5060 Ti 16 GB (neu)Windows/Linuxca. 450–500 €Nur 13B–24B
RTX 5090 32 GB (neu)Windows/Linuxca. 1.900 €70B, 40–50 tok/s
Gebrauchte RTX 4090 24 GBWindows/Linuxca. 950–1.300 €70B Q4
Mac vs Windows vs Linux Hardwarekosten für lokale LLMs: M5 Max bei ca. 5.694–6.999 € läuft 70B Q8 mit 25–35 tok/s; RTX 5090 bei ca. 1.900 € erreicht 40–50 tok/s; gebrauchte RTX 4090 bei ca. 950–1.300 € bietet 70B Q4 Unterstützung.
Mac vs Windows vs Linux Hardwarekosten für lokale LLMs: M5 Max bei ca. 5.694–6.999 € läuft 70B Q8 mit 25–35 tok/s; RTX 5090 bei ca. 1.900 € erreicht 40–50 tok/s; gebrauchte RTX 4090 bei ca. 950–1.300 € bietet 70B Q4 Unterstützung.

Setup-Komplexität: Wie schwierig ist die Installation?

macOS: Einfach. Ollama herunterladen, installieren, ausführen. Keine Treiberinstallation, keine Terminal-Befehle erforderlich. Zeit: 6 Minuten. Best für Anfänger.

Windows: Moderat. NVIDIA-Treiberinstallation erforderlich (15–20 Minuten allein). Dann Ollama-Setup. Zeit: 15–20 Minuten insgesamt. Treiberkonflikt möglich auf älteren Systemen.

Linux: Komplex. CUDA 12.1+, cuDNN, Build-Tools erforderlich. Systemd-Konfiguration für 24/7-Server. Zeit: 40–70 Minuten. Best für Profis und Server-Umgebungen.

Setup-Komplexität nach OS: macOS erfordert 6 Minuten Terminal-freie Installation; Windows benötigt 15–20 Minuten mit GUI + optionalem Terminal und NVIDIA-Treibern; Linux Ubuntu erfordert 40–70 Minuten inklusive CUDA-Installation.
Setup-Komplexität nach OS: macOS erfordert 6 Minuten Terminal-freie Installation; Windows benötigt 15–20 Minuten mit GUI + optionalem Terminal und NVIDIA-Treibern; Linux Ubuntu erfordert 40–70 Minuten inklusive CUDA-Installation.

Inferenzleistungsvergleich

KonfigurationModellGeschwindigkeitRating
M5 Pro 64 GB70B Q415–20 tok/sMittel
M5 Max 128 GB70B Q825–35 tok/sGut
RTX 5090 Windows70B40–50 tok/sBeste
RTX 5090 Windows8B180+ tok/sBeste
RTX 5060 Ti 16 GB70BPasst nichtNein
RTX 5090 Linux70B42–53 tok/sBeste
Vergleich der Inferenzgeschwindigkeit: RTX 5090 dominiert mit 40–50 tok/s für 70B-Modelle. M5 Max erreicht 25–35 tok/s. M5 Pro erreicht 15–20 tok/s. RTX 5060 Ti 16 GB kann 70B nicht ausführen.
Vergleich der Inferenzgeschwindigkeit: RTX 5090 dominiert mit 40–50 tok/s für 70B-Modelle. M5 Max erreicht 25–35 tok/s. M5 Pro erreicht 15–20 tok/s. RTX 5060 Ti 16 GB kann 70B nicht ausführen.

Tool- und Framework-Unterstützung nach OS

ToolmacOSWindowsLinux
Ollama✓ Ja✓ Ja✓ Ja
LM Studio✓ Ja✓ JaNur Docker
vLLMBegrenzt (Metal)✓ CUDA✓✓ Beste
NVIDIA CUDA✗ Nein✓ Ja✓ Ja
PyTorchMetal (langsam)✓ CUDA✓✓ Schnell
FinetuningCPU/Cloud✓ CUDA✓✓ Beste
Tool/Framework-Unterstützung nach OS: Ollama läuft auf allen drei; LM Studio hat keine native Linux-GUI; vLLM und CUDA-Finetuning sind Linux-exklusiv bei voller Leistung.
Tool/Framework-Unterstützung nach OS: Ollama läuft auf allen drei; LM Studio hat keine native Linux-GUI; vLLM und CUDA-Finetuning sind Linux-exklusiv bei voller Leistung.

Gesamtkostenanalyse über 3 Jahre

SetupJahr 1Gesamt 3 JahreBest für
Mac mini M4 Pro 64 GBca. 2.299 €ca. 2.319 €Apple-Ökosystem
MacBook Pro M5 Pro 64 GBca. 2.499 €ca. 2.529 €Portabilität
MacBook Pro M5 Max 128 GBca. 3.499 €ca. 3.529 €Max Qualität
Windows + RTX 5090 32 GBca. 2.500 €ca. 2.620 €GPU-Spitze
Windows + RTX 5060 Ti 16 GBca. 1.650 €ca. 1.730 €Mittelbereich
Linux + RTX 5060 Ti 16 GBca. 750 €ca. 810 €🏆 Beste Wert
Linux + RTX 5090 32 GBca. 1.400 €ca. 1.500 €Leistung + Kosten
Gesamtkostenberechnung (3 Jahre): Linux + RTX 5060 Ti ist am billigsten mit ca. 770 €; Mac mini M4 Pro kostet ca. 2.319 €; MacBook Pro M5 Max kostet ca. 3.529 €; Linux + RTX 5090 bietet beste GPU-Leistung für Geld bei ca. 1.500 €.
Gesamtkostenberechnung (3 Jahre): Linux + RTX 5060 Ti ist am billigsten mit ca. 770 €; Mac mini M4 Pro kostet ca. 2.319 €; MacBook Pro M5 Max kostet ca. 3.529 €; Linux + RTX 5090 bietet beste GPU-Leistung für Geld bei ca. 1.500 €.

Häufige Fehler vermeiden

  • M5 Max mit Q3 Quantisierung kaufen: Q3_K_M spart RAM, aber verliert 5–10% Genauigkeit. Kaufen Sie stattdessen M5 Pro (billiger) oder verwenden Sie volle Genauigkeit auf M5 Max.
  • Annahme der identischen Leistung über OS: Windows und Linux mit gleicher GPU sind identisch schnell. macOS und Windows sind unterschiedlich (Apple Metal vs CUDA). Benchmark vor der Auswahl.
  • Vergessen der NVIDIA-Treiber unter Windows: Veraltete oder fehlende Treiber reduzieren die Geschwindigkeit um 30–50%. Driver-Installation ist Schritt 0.
  • RTX 5060 Ti für 70B-Modelle: VRAM reicht nur für 13B–24B. Nicht kaufen, wenn Sie 70B brauchten. Verwenden Sie M5 Pro oder sparen Sie für RTX 5090.
  • Linux als Server ohne 24/7-Monitoring: Linux-Setups verschwinden ohne Systemd-Konfiguration. Richten Sie Monitoring und Neustarts ein.

Regionale Überlegungen für Ihre Wahl

EU / DSGVO

Für EU-Softwareentwicklungsteams, die an proprietären Codebasen arbeiten, bedeutet lokale Codegenerierung, dass Quellcode niemals die Infrastruktur der Organisation verlässt. DSGVO Artikel 32 erfordert angemessene technische Sicherheitsmaßnahmen – das Übertragen von Quellcode an Cloud-AI-APIs erzeugt eine zusätzliche Datenverarbeiter-Beziehung gemäß Artikel 28. Lokale Inferenz entfällt.

Qwen2.5-Coder 32B (Alibaba, Apache 2.0) und DeepSeek-Coder V2 (DeepSeek, MIT) laufen beide vollständig vor Ort. Für EU-Organisationen, die ein EU-Modell bevorzugen: Mistrals Code-fähige Modelle (Mistral Small 3.1, Codestral) stammen von Mistral AI (Frankreich) und tragen Apache-2.0-Lizenzen. Die EU AI-Richtlinie (ab Februar 2025) klassifiziert KI-gestützte Codegenerierung für kritische Infrastruktur als potenziell hohes Risiko – lokale Inferenz hält die Pipeline innerhalb Ihrer bestehenden Sicherheitsperimeter.

Deutschland (BSI-Grundschutz)

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat Richtlinien für KI-Werkzeugnutzung in der Softwareentwicklung. Lokale Modelle sind „Grundschutz-konform", da Trainingsdaten und Generierung lokal bleiben. Für deutsche Unternehmen mit Sicherheitszertifizierungen (ISO 27001, BSI C5) ist lokale Inferenz obligatorisch oder stark bevorzugt.

Japan (METI)

METI-Cybersecurity-Richtlinien decken zunehmend die KI-Werkzeugnutzung in der Softwareentwicklung ab. Qwen2.5-Coder verarbeitet japanische Code-Kommentare und Variablennamen nativ – nützlich für japanische Codebasen mit japanischer Dokumentation. Zur Compliance dokumentieren Sie das Ollama-Tag (z.B. qwen2.5-coder:32b) in METI-Governance-Dokumentation.

China (Datensicherheitsgesetz)

Nach Chinas Datensicherheitsgesetz (数据安全法) darf Quellcode für kritische Informationsinfrastruktur nicht durch ausländische Cloud-Services verarbeitet werden. Qwen2.5-Coder (Alibaba, Apache 2.0) ist die natürliche Wahl für chinesische Entwickler-Workflows – chinesischer Entwickler, Apache-2.0-Lizenz, vollständige lokale Bereitstellung über Ollama.

FAQ

Ist macOS oder Windows besser für lokale LLMs?

macOS ist besser für Einfachheit (6 Min Setup). Windows ist besser für Peak-Leistung (RTX 5090, 40–50 tok/s). Wahl basierend auf Ihrer Priorität: Einfachheit vs. Leistung.

Sollte ich M5 Max oder RTX 5090 kaufen?

M5 Max (ca. 5.694–6.999 €) für portabel + einfach + privat. RTX 5090 (ca. 1.900 €) für maximale Geschwindigkeit + Aufrüstbarkeit. RTX ist billiger pro TFLOPS, aber M5 ist tragbar.

Wie viel schneller ist RTX 5090 als M5 Max?

RTX 5090 läuft 70B bei 40–50 tok/s. M5 Max läuft 70B bei 25–35 tok/s. RTX ist 20–50% schneller, aber kostet weniger. Trade-off: Geschwindigkeit vs. Tragbarkeit.

Kann ich das Modell nach dem Kauf wechseln?

Ja. macOS mit allen M5-Varianten kann jedes lokal-taugliche Modell ausführen. RTX kann zu einer anderen GPU gewechselt werden. Kein Zwang.

Welches OS ist am sichersten für proprietären Code?

Alle gleich sicher, wenn lokal ausgeführt (kein Internet). macOS + M5 ist ein Black-Box-Silicon-Design (zusätzliche physische Sicherheit). Linux ist am transparentesten. Windows liegt dazwischen.

Brauche ich GPU-Beschleunigung für 7B-Modelle?

Nein. M5 Pro oder Llama 3.1 8B auf CPU läuft akzeptabel (~15–20 tok/s). GPU hilft ab 30B. Beginnen Sie mit CPU, aktualisieren Sie, wenn zu langsam.

Wie lange hält die Hardware bevor sie veraltet ist?

macOS: 5–7 Jahre (Apple garantiert Software-Support). GPU: 3–5 Jahre (CUDA-Treiber laufen lange). Modelle selbst werden alle 6–12 Monate aktualisiert (Download-Update, nicht Hardware-Upgrade).

Kann ich mehrere Modelle gleichzeitig ausführen?

Mit separaten GPU/RAM-Speicher ja (z.B. zwei RTX 5090). Mit M5 nicht empfohlen (nur eine einheitliche Speicherbasis). Terminal kann theoretisch mehrere Ollama-Prozesse starten, aber nicht praktisch für Produktion.

Was ist mit AMD GPU (für Windows/Linux)?

AMD ROCm unterstützt nur RDNA 2+ (RX 6600+). Nicht so reif wie CUDA. In diesem Vergleich nicht empfohlen, aber Option für zukünftige Updates.

Benötigen Sie einen Public Key oder einen VPN für lokale Inferenz?

Nein. Lokale Inferenz verarbeitet nichts extern. Kein Internet erforderlich. Vollständig Offline — kein Datenschutz-Risiko.

Muss ich bei der Verwendung von lokalen LLMs die DSGVO beachten?

Ja, teilweise. Wenn Sie lokale LLMs für die Datenverarbeitung nutzen, müssen Sie sicherstellen, dass die Daten nicht an Dritte weitergeleitet werden (was nicht der Fall ist). Allerdings: Trainingsdaten des Modells unterliegen Datenschutz. DSGVO Artikel 28 empfiehlt, dass Modelle lokal verarbeitet werden, um Verarbeiterbindungen zu vermeiden. Lokale Inferenz erfüllt diesen Ansatz optimal.

Sind lokale LLMs für den deutschen Mittelstand geeignet?

Ja, besonders für Mittelständler mit Datensicherheitsanforderungen (ISO 27001, BSI-Grundschutz). Linux + RTX 5090 kostet ca. 1.500 € (3 Jahre) und erfüllt BSI-Richtlinien vollständig. Für KMU mit 8-16-Kern-Servern ist M5 Pro oder 7B-Modelle auf CPU auch praktikabel. Start mit 7B-Modellen, skaliere später.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Mac vs Windows vs Linux für LLMs 2026: M5 vs RTX 5090