Bester Mini-PC für Ollama-Server im Dauerbetrieb (2026)

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen. Das Anklicken von Links und Ihre nächsten Schritte liegen in Ihrer eigenen Verantwortung. Diese Links stellen keine Billigung oder Verifizierung durch PromptQuorum dar.

Hardware & PerformanceFortgeschritten

Wichtigste Punkte

✓Mini-PCs verbrauchen 15–45 W statt 200–350 W für Desktop-GPUs — 24/7-Einsparungen sind erheblich
✓UM890 Pro läuft 7B-Modelle nur per CPU mit 12–18 Tok/s — gut für API-Server
✓AOOSTAR GEM12 Pro + OCuLink-eGPU ermöglicht GPU-Beschleunigung ohne Desktop-PC
✓Mac Mini M4 Pro: 48 GB Unified Memory läuft 32B-Modelle — beste macOS-Option
✓Beelink SER8 ist der Einstieg unter 400 € mit 32 GB RAM für 7B und 13B

Beste Mini-PCs für Ollama-Server im Dauerbetrieb — Ranking

Quick Answers

Kann ein Mini-PC 13B- oder größere Modelle in nutzbarer Geschwindigkeit ausführen?▾

Ja — mit genug RAM. Der UM890 Pro mit 64 GB läuft Llama 3.3 13B Q8 vollständig im RAM mit ~8–12 Tok/s CPU-only. Mit der Radeon 780M iGPU laufen Q4-Modelle mit 10–18 Tok/s — nutzbar für Hintergrund-Zusammenfassungen oder API-Aufrufe. Für 30B+-Modelle ist der Mac Mini M4 Pro (48 GB Unified Memory) die einzige Mini-PC-Option unter 1500 €.

Funktioniert Ollama gut als Netzwerkserver auf einem Mini-PC?▾

Ja. OLLAMA_HOST=0.0.0.0 setzen, und Ollama beantwortet Anfragen von allen Geräten im LAN. Mit Open WebUI (Docker-Container) gibt es eine Browser-Oberfläche für Smartphones, Tablets und PCs. Der Mini-PC hat niedrigen Stromverbrauch, läuft lautlos und verarbeitet eine gleichzeitige Anfrage problemlos.

Lohnen sich eGPU-Setups mit einem Mini-PC?▾

Für Ollama speziell ist ein OCuLink-eGPU (AOOSTAR GEM12 Pro + RTX-3090-Gehäuse) das Beste aus beiden Welten: Desktop-GPU-Geschwindigkeit bei Mini-PC-Stromverbrauch im Leerlauf. OCuLink (PCIe 4.0 x4) liefert ~80% der Bandbreite eines direkten PCIe x16-Slots — ausreichend für LLM-Inferenz. Thunderbolt-eGPUs sind langsamer (~40% Bandbreite) und für GPU-intensive Inferenz nicht empfohlen.

Den vollständigen Überblick?

Die vollständige Anleitung lesen →

← Zurück zu Prompt-Häppchen