Skip to main content
PromptQuorumPromptQuorum

Bester Mini-PC für Ollama-Server im Dauerbetrieb (2026)

Hardware & PerformanceFortgeschritten

Wichtigste Punkte

  • Mini-PCs verbrauchen 15–45 W statt 200–350 W für Desktop-GPUs — 24/7-Einsparungen sind erheblich
  • UM890 Pro läuft 7B-Modelle nur per CPU mit 12–18 Tok/s — gut für API-Server
  • AOOSTAR GEM12 Pro + OCuLink-eGPU ermöglicht GPU-Beschleunigung ohne Desktop-PC
  • Mac Mini M4 Pro: 48 GB Unified Memory läuft 32B-Modelle — beste macOS-Option
  • Beelink SER8 ist der Einstieg unter 400 € mit 32 GB RAM für 7B und 13B

Beste Mini-PCs für Ollama-Server im Dauerbetrieb — Ranking

Quick Answers

Kann ein Mini-PC 13B- oder größere Modelle in nutzbarer Geschwindigkeit ausführen?
Ja — mit genug RAM. Der UM890 Pro mit 64 GB läuft Llama 3.1 13B Q8 vollständig im RAM mit ~8–12 Tok/s CPU-only. Mit der Radeon 780M iGPU laufen Q4-Modelle mit 10–18 Tok/s — nutzbar für Hintergrund-Zusammenfassungen oder API-Aufrufe. Für 30B+-Modelle ist der Mac Mini M4 Pro (48 GB Unified Memory) die einzige Mini-PC-Option unter 1500 €.
Funktioniert Ollama gut als Netzwerkserver auf einem Mini-PC?
Ja. OLLAMA_HOST=0.0.0.0 setzen, und Ollama beantwortet Anfragen von allen Geräten im LAN. Mit Open WebUI (Docker-Container) gibt es eine Browser-Oberfläche für Smartphones, Tablets und PCs. Der Mini-PC hat niedrigen Stromverbrauch, läuft lautlos und verarbeitet eine gleichzeitige Anfrage problemlos.
Lohnen sich eGPU-Setups mit einem Mini-PC?
Für Ollama speziell ist ein OCuLink-eGPU (AOOSTAR GEM12 Pro + RTX-3090-Gehäuse) das Beste aus beiden Welten: Desktop-GPU-Geschwindigkeit bei Mini-PC-Stromverbrauch im Leerlauf. OCuLink (PCIe 4.0 x4) liefert ~80% der Bandbreite eines direkten PCIe x16-Slots — ausreichend für LLM-Inferenz. Thunderbolt-eGPUs sind langsamer (~40% Bandbreite) und für GPU-intensive Inferenz nicht empfohlen.

Den vollständigen Überblick?

Die vollständige Anleitung lesen →