PromptQuorumPromptQuorum

Bester Mini-PC für lokale LLMs?

Schnelle Antwort

Der Minisforum UM790 Pro und der Mac Mini M4 sind die besten Mini-PCs für den lokalen Betrieb von LLMs. Der UM790 Pro nutzt eine AMD iGPU mit Unified Memory. Der Mac Mini M4 ist schneller und energieeffizienter. Beide führen 7–13B-Modelle ohne diskrete GPU aus.

  • Mac Mini M4: am schnellsten für LLMs, ~18 tok/s auf Llama 3 8B, energieeffizient
  • Minisforum UM790 Pro: AMD Radeon 780M iGPU, bis zu 64 GB Unified RAM
  • Beide laufen 7B–13B-Modelle bei Q4 ohne dedizierte GPU

Aktualisiert: 2026-05

Model Comparisons

Wichtigste Punkte

  • Mac Mini M4 ab ~599 USD, nutzt Apple Metal für GPU-Beschleunigung, erreicht ~18 tok/s bei 7B Q4-Modellen mit nur ~30 W unter Last
  • Minisforum UM790 Pro (AMD Ryzen 9 7940HS) unterstützt bis zu 64 GB DDR5 RAM und ~8 tok/s bei 7B-Modellen via ROCm unter Linux
  • Die Unified-Memory-Architektur von Apple Silicon ist der Hauptvorteil — der RAM des M4 wird zwischen CPU und GPU ohne VRAM-Engpass geteilt
  • Beelink SER8 (Ryzen 9 8845HS) ist die Budget-Option: gleiche ~8 tok/s wie der UM790 Pro, aber CPU-basierte Inferenz, geringerer Stromverbrauch und kein Linux ROCm Setup erforderlich

Mac Mini M4 führt bei Geschwindigkeit und Effizienz

Der Mac Mini M4 erreicht ~18 Tokens pro Sekunde bei einem 7B Q4-Modell, verbraucht unter Last ~30 W und kostet ab ca. 599 USD — damit ist er der schnellste Mini-PC für lokale LLM-Inferenz. Der M4-Chip verwendet Unified-Memory-Architektur, d. h. derselbe physische RAM wird zwischen CPU und GPU ohne Speicher-Kopieraufwand geteilt. Für Nutzer, die Geschwindigkeit priorisieren, ist der M4 die beste Wahl.

Der Minisforum UM790 Pro ist die Skalierungsoption: AMD Ryzen 9 7940HS mit Radeon 780M iGPU, bis zu 64 GB DDR5 als Unified Memory konfiguriert, und ~8 tok/s unter Linux mit ROCm. Der Beelink SER8 (Ryzen 9 8845HS) entspricht dem UM790 Pro beim Durchsatz, nutzt aber CPU-basierte Inferenz — keine diskrete GPU erforderlich — was ihn zur budgetfreundlichen Wahl für Windows- oder Linux-Nutzer macht, die ROCm-Setup vermeiden möchten.

Die folgende Tabelle vergleicht die drei Mini-PCs hinsichtlich CPU/GPU, bester Speicherkonfiguration und gemessener LLM-Geschwindigkeit.

Mini-PCCPU/GPUBeste KonfigurationLLM-Geschwindigkeit (7B Q4)
Mac Mini M4Apple M416 GB Unified~18 tok/s
Minisforum UM790 ProRyzen 9 7940HS64 GB DDR5~8 tok/s
Beelink SER8Ryzen 9 8845HS64 GB DDR5~8 tok/s

Unified Memory ist der entscheidende Unterschied für LLM-Leistung

Standard-Mini-PCs mit diskreten GPU-Slots sind für LLM-Inferenz ungeeignet, da der GPU-VRAM ab Werk festgelegt ist — in der Regel 4–8 GB — und nicht erweitert werden kann. Der Mac Mini M4 und UM790 Pro lösen dies durch GPU-basierte Inferenz mit Unified Memory. Der Beelink SER8 verfolgt einen anderen Ansatz: sein Ryzen 9 8845HS nutzt CPU-basierte Inferenz, die langsamer ist, aber kein GPU-Setup erfordert.

Der Mac Mini M4 mit 16 GB Unified Memory übertrifft den UM790 Pro mit 32 GB DDR5 bei der reinen Inferenzgeschwindigkeit, da die Speicherbandbreite von Apple (~68 GB/s) und die Metal-GPU-Beschleunigung effizienter sind als die Radeon 780M iGPU. Der Vorteil des UM790 Pro liegt in der Erweiterbarkeit auf 64 GB, was größere Modelle wie 13B und 30B Q4 ermöglicht, die nicht in 16 GB passen.

Einen vollständigen Leitfaden zur Hardware-Auswahl für lokale LLMs finden Sie in der besten Ollama-Frontend-Übersicht, die die Software-Seite der lokalen LLM-Einrichtung abdeckt.

Schnelle Antworten zu Mini-PCs für lokale LLMs

Kann der Mac Mini M4 ein 13B-Modell lokal ausführen?
Ja, mit der 16-GB-Version bei Q4-Quantisierung passt das Modell mit ~1 GB Spielraum. Der Mac Mini M4 Pro mit 32 GB kann 13B- und 30B-Q4-Modelle problemlos ausführen. Die Inferenzgeschwindigkeit sinkt auf ~10 tok/s bei 13B Q4 auf dem Basis-M4 mit 16 GB.
Benötigt der Minisforum UM790 Pro ROCm für GPU-Beschleunigung?
Ja. Unter Linux unterstützen Ollama und llama.cpp die Radeon 780M iGPU via ROCm. Unter Windows verwendet Ollama DirectML für AMD-iGPU-Beschleunigung, was in der Regel eine geringere Leistung als ROCm unter Linux erzielt. Für schnellste Inferenz auf dem UM790 Pro empfiehlt sich Linux mit ROCm.
Ist der Mac Mini M4 für Coding mit einem 7B-Modell gut genug?
Ja. Mit ~18 tok/s bei einem 7B-Q4-Modell erzeugt der Mac Mini M4 Tokens schnell genug für interaktive Code-Vervollständigung. Die Antwortlatenz für eine 200-Token-Vervollständigung beträgt ca. 11 Sekunden — praktikabel für nicht-echtzeit-basierte Coding-Unterstützung.
Was ist die maximale Modellgröße, die der UM790 Pro mit voller Geschwindigkeit ausführen kann?
Mit 64 GB DDR5 als Unified Memory unter Linux mit ROCm kann der UM790 Pro ein 30B-Q4-Modell (~18 GB) mit ca. 3–4 tok/s ausführen. Ein 13B-Q4-Modell (~8 GB) läuft mit ~6 tok/s.
Wann sollte ich den Beelink SER8 dem Mac Mini M4 oder UM790 Pro vorziehen?
Wählen Sie Beelink SER8 wenn Sie: (1) GPU-Treiber und ROCm unter Linux vermeiden möchten; (2) Budget über Geschwindigkeit priorisieren (er ist günstiger als beide); (3) Windows laufen und DirectML nicht nutzen möchten; (4) gelegentliche Inferenz bei ~8 tok/s durchführen und CPU-basierte Inferenz bevorzugen. Er wird den Mac Mini M4 nicht in Geschwindigkeit schlagen oder den UM790 Pro in Skalierbarkeit, aber er ist die einfachste CPU-basierte Option.