Wichtigste Erkenntnisse
- macOS: Laden Sie die .dmg-Datei von ollama.com herunter, oder führen Sie `brew install ollama` aus -- dann `ollama run llama3.2` zum Chatten.
- Windows: Laden Sie das Installationsprogramm von ollama.com/download herunter. Ollama wird als Hintergrunddienst im Systembereich ausgeführt.
- Linux: Ein einzelner curl-Befehl installiert alles -- `curl -fsSL https://ollama.com/install.sh | sh`.
- Mindestanforderungen: 4 GB RAM für ein 3B-Modell, 8 GB RAM für ein 7B-Modell. Keine GPU erforderlich zum Starten.
- Ollama stellt eine OpenAI-kompatible REST-API auf `http://localhost:11434` bereit -- jede OpenAI-SDK-App kann sie ohne Codeänderungen verwenden.
Vor der Installation: Ist lokales LLM die richtige Wahl für Ihren Anwendungsfall?
Ollama-Installation dauert 5 Minuten, aber das optimale Ausführen Ihres ersten Modells kann 20–40 Minuten dauern, wenn Sie auf GPU-Erkennungsprobleme, Treiberabstimmungen oder RAM-Engpässe stoßen.
Wenn Sie unsicher sind, ob lokale Inferenz die richtige Wahl für Sie ist, **vergleichen Sie zunächst den vollständigen Kompromiss zwischen lokal und Cloud** — Sie könnten feststellen, dass der Start mit einer Cloud-API (in 5 Minuten einsatzbereit, keine Fehlerbehebung) der klügere Weg ist. Viele Benutzer entdecken dies nach der Installation; besser jetzt entscheiden.
Für Benutzer, die sich zum Lokalen verpflichtet haben, fahren Sie unten fort. Für Benutzer, die Cloud zuerst bewerten, lesen Sie den vollständigen Vergleich.
Was ist Ollama und warum sollte ich es nutzen?
In einem Satz: Ollama ist ein Tool zum Herunterladen und lokalen Ausführen von Open-Source-Sprachmodellen (wie Mistral oder Llama 3.1) auf Ihrem Computer mit nur einem Befehl.
Ollama ist eine Open-Source-Inference-Engine, die große Sprachmodelle lokal ausführt. Sie kombiniert Modellverwaltung, das llama.cpp-Inference-Backend und eine OpenAI-kompatible REST-API in einer einzigen leichten Anwendung. Keine Python, keine Conda-Umgebung und kein CUDA-Setup erforderlich.
Ollama betreut eine kuratierte Modellbibliothek (ollama.com/library) mit Ein-Befehl-Downloads für Meta Llama 3.1, Microsoft Phi-3, Google Gemma 2, Mistral, Qwen2.5 und über 100 weitere Modelle. Ein Modell wird einmal heruntergeladen und auf der Festplatte zwischengespeichert -- nachfolgende Ausführungen starten in unter 5 Sekunden.
Für Alternativen zu Ollama siehe Local-LLM-One-Click-Installer. Zum Vergleich von Ollama und LM Studio siehe So installieren Sie LM Studio.
Wie installiert man Ollama auf macOS?
In einem Satz: Ollama wird auf macOS als Hintergrunddienst ausgeführt -- sobald es installiert und gestartet ist, wird die lokale API auf `http://localhost:11434` auf Modellanforderungen überwacht.
Es gibt zwei Methoden. Der Installer-Download ist schneller; Homebrew ist besser, wenn Sie Software mit brew verwalten.
- 1Gehen Sie zu ollama.com/download und klicken Sie auf „Download für macOS".
- 2Öffnen Sie die heruntergeladene Ollama.dmg-Datei und ziehen Sie Ollama in Ihren Anwendungsordner.
- 3Starten Sie Ollama über die Anwendungen. Ein Llama-Symbol erscheint in der Menüleiste -- Ollama wird jetzt als Hintergrunddienst ausgeführt.
- 4Öffnen Sie das Terminal und führen Sie Ihr erstes Modell aus: `ollama run llama3.2`
- 5Das Modell wird heruntergeladen (~2 GB für llama3.2:3b) und eine Chat-Eingabeaufforderung wird angezeigt. Geben Sie eine Nachricht ein und drücken Sie die Eingabetaste.
Wie installiert man Ollama auf macOS mit Homebrew?
brew install ollama
# Starten Sie den Ollama-Dienst
ollama serve &
# Ziehen Sie ein Modell herunter und führen Sie es aus
ollama run llama3.2Wie installiert man Ollama auf Windows?
- 1Gehen Sie zu ollama.com/download und klicken Sie auf „Download für Windows".
- 2Führen Sie das heruntergeladene OllamaSetup.exe-Installationsprogramm aus. Ollama wird in %LOCALAPPDATA%\Programs\Ollama installiert.
- 3Ollama wird automatisch gestartet und als Systembereich-Symbol angezeigt.
- 4Öffnen Sie PowerShell oder Eingabeaufforderung und führen Sie aus: `ollama run llama3.2`
- 5Das Modell wird beim ersten Ausführen heruntergeladen. Nachfolgende Ausführungen verwenden das zwischengespeicherte Modell.
Wie aktiviert man GPU-Unterstützung unter Windows?
Ollama unter Windows erkennt automatisch und nutzt NVIDIA-GPUs (CUDA 11.3+) und AMD-GPUs (ROCm 6+). Wenn Sie eine NVIDIA-RTX-Karte haben, wird Ollama Modellebenen automatisch in den VRAM verschieben -- keine manuelle Konfiguration erforderlich. Zum Verifizieren, dass die GPU verwendet wird, führen Sie `ollama run llama3.2` aus und überprüfen Sie den Task Manager → GPU auf Aktivität.
Wie installiert man Ollama auf Linux?
Ein einzelner Befehl installiert Ollama auf jeder Linux-Distribution:
curl -fsSL https://ollama.com/install.sh | shWie führt man Ollama als systemd-Dienst auf Linux aus?
Das Installationsskript registriert Ollama automatisch als systemd-Dienst. So verwalten Sie ihn:
# Dienststatus überprüfen
systemctl status ollama
# Starten / Stoppen / Neustarten
systemctl start ollama
systemctl stop ollama
systemctl restart ollama
# Protokolle anzeigen
journalctl -u ollama -fWie zieht man sein erstes Modell in Ollama herunter und führt es aus?
Führen Sie nach der Installation von Ollama diesen Befehl aus, um ein Modell herunterzuladen und zu starten:
# Ziehen Sie ein Modell herunter (speichern Sie es unter ~/.ollama/models)
ollama pull llama3.2
# Führen Sie es interaktiv aus
ollama run llama3.2
# Oder herunterladen und in einem Schritt ausführen
ollama run llama3.2Mit welchem Modell sollte ich anfangen?
Für einen ersten Durchlauf decken diese drei Modelle verschiedene Hardware-Profile ab:
| Modell | Download-Größe | Benötigter RAM | Am besten für |
|---|---|---|---|
| Llama 3.2 3B | ~2 GB | 4 GB | Erster Test -- auf jeder Maschine |
| Llama 3.1 8B | ~4,7 GB | 8 GB | Allgemeine Nutzung auf den meisten Laptops |
| phi4-mini | ~2,3 GB | 4 GB | Schnelle Antworten, niedriger RAM |
Wie überprüft man, ob Ollama funktioniert?
Testen Sie die REST-API direkt, um zu bestätigen, dass Ollama läuft und verfügbar ist:
# Überprüfen Sie, ob Ollama läuft
curl http://localhost:11434
# Erwartet: "Ollama is running"
# Heruntergeladene Modelle auflisten
ollama list
# Senden Sie eine Eingabeaufforderung über die API (OpenAI-kompatibel)
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Was ist 2+2?",
"stream": false
}'Welche Ollama-Befehle sind am nützlichsten?
| Befehl | Funktion |
|---|---|
| ollama list | Zeige alle heruntergeladenen Modelle und ihre Größen |
| ollama pull <model> | Laden Sie ein Modell herunter, ohne es auszuführen |
| ollama rm <model> | Löschen Sie ein Modell von der Festplatte |
| ollama ps | Zeige Modelle, die derzeit im Speicher geladen sind |
| ollama show <model> | Zeige Modelldetails (Parameter, Vorlage, Lizenz) |
| ollama serve | Starten Sie den Ollama-Server manuell (falls nicht als Dienst ausgeführt) |
Wie behebe ich häufige Probleme bei der Installation von Ollama?
Ollama sagt „could not connect to ollama app, is it running?" (Fehler: Keine Verbindung zur Ollama-App möglich. Läuft sie?)
Ollama wird nicht als Hintergrunddienst ausgeführt. Auf macOS: Öffnen Sie die Ollama-App über Anwendungen. Unter Linux: Führen Sie `systemctl start ollama` oder `ollama serve` in einem Terminal aus. Unter Windows: Starten Sie Ollama über das Startmenü.
Der Modell-Download ist sehr langsam oder hängt fest
Modell-Downloads sind groß (2-47 GB). Wenn der Download stecken bleibt, drücken Sie Strg+C und führen Sie `ollama pull <model>` erneut aus -- Ollama setzt partielle Downloads fort. Verwenden Sie für schnellere Downloads eine kabelgebundene Verbindung statt WLAN.
Ich erhalte die Fehlermeldung „error: model requires more system memory" (Fehler: Modell benötigt mehr Systemspeicher)
Das Modell ist zu groß für Ihren verfügbaren RAM. Versuchen Sie eine kleinere Quantisierung: `ollama run llama3.2-instruct-q4_0` statt der Standard-Q4_K_M. Oder wechseln Sie zu einem kleineren Modell wie `llama3.2:3b`. Siehe Die besten anfänglichen Local-LLM-Modelle für RAM-abgestimmte Empfehlungen.
Ollama läuft, aber meine GPU wird nicht verwendet
Unter Windows überprüfen Sie, ob Ihr NVIDIA-Treiber Version 452.39 oder höher ist. Unter Linux bestätigen Sie, dass das NVIDIA-Container-Toolkit installiert ist (`nvidia-smi` sollte GPU-Informationen zurückgeben). Ollama versetzt Ebenen automatisch in den GPU-Speicher, wenn VRAM verfügbar ist -- führen Sie `ollama ps` aus, nachdem Sie ein Modell gestartet haben, um die GPU-Auslastung anzusehen.
Wo werden Ollama-Modelldateien gespeichert?
Modelle werden unter ~/.ollama/models auf macOS und Linux gespeichert. Unter Windows ist der Standardpfad C:\Users\<benutzername>\.ollama\models. Sie können den Speicherort ändern, indem Sie die Umgebungsvariable OLLAMA_MODELS festlegen, bevor Sie den Dienst starten.
Was sollte ich nach der Installation von Ollama tun?
Sobald Ollama ausgeführt wird, ist der nächste Schritt Führen Sie Ihr erstes lokales LLM aus, um das Prompting, die Kontextlänge und die erwartete Geschwindigkeit der lokalen Inference zu verstehen. Um das beste Modell für Ihre Hardware auszuwählen, siehe Die besten anfänglichen Local-LLM-Modelle. Wenn Sie eine grafische Chat-Schnittstelle dem Terminal vorziehen, wird in So installieren Sie LM Studio die Desktop-App-Alternative behandelt.
Regionale Einsatzszenarien und Compliance-Kontext
EU / DSGVO: Ollama, das lokal vor Ort ausgeführt wird, bedeutet, dass persönliche Daten die Infrastruktur der Organisation nie verlassen. Die DSGVO Artikel 5 (Datensparsamkeit) ist standardmäßig erfüllt, da die Inference auf Ihrer Maschine stattfindet. Deutsche Datenschutzbehörden und die französische CNIL empfehlen die lokale LLM-Bereitstellung zur Verarbeitung von Mitarbeiter- oder Kundendaten. Das Binden von Ollama an `localhost` (die Standardeinstellung) stellt sicher, dass kein externer Netzwerkzugriff erfolgt.
Japan / METI: Japans METI-KI-Governance-Richtlinien verlangen eine Dokumentation, wo KI-Inference stattfindet. Organisationen können Ollama vor Ort bereitstellen, um die Datenschutzbestimmungen einzuhalten, insbesondere in den Bereichen Finanzdienstleistungen, Gesundheitswesen und Fertigung. Lokale Bereitstellung mit Ollama wird als datenschutzfreundlicher Ansatz anerkannt, der den APPI-Anforderungen (Gesetz zum Schutz persönlicher Informationen) entspricht.
China / CAC: Die Interim-Maßnahmen der Cyberspace-Verwaltung Chinas für generative KI-Dienste (2023) regulieren KI-Services, die chinesischen Nutzern angeboten werden. Eine lokal laufende Ollama-Bereitstellung, die vollständig auf-Site läuft, liegt außerhalb der CAC-Anbieter-Definition und reduziert die Compliance-Belastung für Unternehmensanwendungsfälle erheblich, die mit sensiblen Daten arbeiten.
Quellen
- Offizielle Ollama-Dokumentation -- Installationsanleitung und API-Dokumentation
- Ollama GitHub-Repository -- Quellcode, Probleme und Versionshinweise
- Ollama-Modellbibliothek -- Vollständige Liste der verfügbaren Modelle mit Download-Links
Was sind häufige Fehler bei der Installation von Ollama?
- Nicht überprüfen, ob Ollama als Hintergrunddienst läuft, bevor Sie erwarten, dass die API antwortet. Unter macOS überprüfen Sie, ob das Llama-Symbol in der Menüleiste angezeigt wird. Unter Linux führen Sie `systemctl status ollama` aus. Unter Windows überprüfen Sie den Systembereich.
- Versuchen, Modelle auszuführen, die größer sind als der verfügbare RAM, ohne Speicheranforderungen zuerst zu überprüfen. Ein 7B-Modell mit Q4-Quantisierung benötigt ~4-5 GB VRAM. Multiplizieren Sie immer die Modelldateigröße mit 1,2, um den benötigten RAM zu schätzen.
- GPU-Erkennung ignorieren -- Ollama unterstützt NVIDIA und AMD, benötigt aber aktuelle Treiber. Unter Windows überprüfen Sie die NVIDIA-Treiberversion 452.39+ mit `nvidia-smi`. Unter Linux bestätigen Sie, dass das NVIDIA-Container-Toolkit installiert ist.
- VRAM (GPU-Speicher) mit System-RAM verwechseln. Ollama kann auf CPU laufen, aber GPU-Beschleunigung ist 5-10× schneller. Wenn Sie eine diskrete GPU haben, aber die Inference langsam ist, kann Ollama aufgrund fehlender oder veralteter GPU-Treiber auf CPU zurückfallen.
- Nicht verstehen, dass Modell-Downloads zwischengespeichert werden. Beim ersten Ausführen benötigt `ollama pull llama3.2` 5-10 Minuten für einen 2-GB-Download. Nachfolgende Ausführungen verwenden das zwischengespeicherte Modell und starten in unter 5 Sekunden.
FAQ
Ist Ollama kostenlos?
Ja, Ollama ist kostenlos und Open-Source unter der MIT-Lizenz. Es gibt keine Nutzungsbeschränkungen, keine erforderlichen API-Schlüssel, und die gesamte Inference läuft lokal auf Ihrem Computer.
Funktioniert Ollama unter Windows?
Ja. Ollama hat seit 2024 ein stabiles natives Windows-Installationsprogramm (2026 mit verbesserter Performance). Laden Sie es von ollama.com herunter. Es unterstützt NVIDIA-GPUs über CUDA und AMD-GPUs über ROCm unter Windows.
Wie viel RAM brauche ich, um Ollama auszuführen?
Mindestens 8 GB RAM für 3B-7B-Modelle bei Q4-Quantisierung. 16 GB RAM verwaltet 7B-Modelle komfortabel und 13B-Modelle bei Q4. 32 GB+ RAM wird für 34B-Modelle mit nur CPU empfohlen.
Wie aktualisiere ich Ollama auf die neueste Version?
Auf macOS wird Ollama automatisch aktualisiert. Unter Windows laden Sie das neueste Installationsprogramm von ollama.com herunter und führen es aus. Unter Linux führen Sie das Installationsskript erneut aus: curl -fsSL https://ollama.com/install.sh | sh
Kann ich Ollama über das OpenAI-SDK ohne Codeänderungen nutzen?
Ja. Legen Sie base_url auf http://localhost:11434/v1 im OpenAI-SDK fest und übergeben Sie einen beliebigen String als API-Schlüssel. Die REST-API von Ollama ist vollständig OpenAI-kompatibel, sodass jede für GPT oder Claude geschriebene Anwendung Ihr lokales Modell nutzen kann.
Warum ist meine Ollama-Inference langsam (unter 5 Token/Sek)?
Das Modell wird wahrscheinlich auf der CPU statt auf der GPU ausgeführt. Überprüfen Sie mit ollama ps, dass das Modell geladen ist. Wenn die GPU-Auslastung 0% ist, überprüfen Sie, dass Ihre GPU-Treiber installiert und aktuell sind. Auf NVIDIA: nvidia-smi sollte Ihre GPU anzeigen. Auf AMD: rocm-smi. Auf Mac: Metal-GPU-Beschleunigung ist auf Apple Silicon automatisch.
Kann Ollama mehrere Modelle gleichzeitig ausführen?
Ollama kann ein Modell gleichzeitig pro Prozess ausführen. Sie können jedoch mehrere Instanzen von Ollama auf verschiedenen Ports ausführen (z. B. OLLAMA_HOST=localhost:11434 und OLLAMA_HOST=localhost:11435), um mehrere Modelle parallel zu bedienen. Dies erfordert mehr RAM.
Was ist der Unterschied zwischen ollama pull und ollama run?
ollama pull lädt ein Modell aus der Ollama-Bibliothek herunter, ohne es in den Speicher zu laden. ollama run lädt das Modell herunter (falls nicht zwischengespeichert) und startet sofort eine Chat-Sitzung. Um ein Modell über die API ohne die Chat-Schnittstelle zu verwenden, führen Sie zuerst pull durch und fragen dann die API ab.
Ist ein lokales LLM mit Ollama DSGVO-konform?
Nicht automatisch. Ein lokales LLM verarbeitet Daten lokal, aber DSGVO-Konformität erfordert zusätzlich: Festplattenverschlüsselung, Zugriffskontrolle, Verarbeitungsverzeichnis und ggf. Auftragsverarbeitungsverträge. Lokale Verarbeitung mit Ollama ist ein wichtiger Schritt, aber kein vollständiger DSGVO-Nachweis. Konsultieren Sie Ihren Datenschutzbeauftragten (DSB) zur Compliance.
Kann ich Ollama im deutschen Mittelstand produktiv einsetzen?
Ja. Viele mittelständische Unternehmen nutzen Ollama lokal für interne Dokumentenverarbeitung, Code-Review und Datenanalyse. Wichtig: Binden Sie Ollama auf localhost (Standardeinstellung), aktivieren Sie Festplattenverschlüsselung für sensible Daten, und prüfen Sie Ihre Compliance-Anforderungen (besonders bei Kundendaten). Mit diesen Maßnahmen ist Ollama ein kostengünstiger Weg zu KI im Betrieb, ohne Cloud-Abhängigkeiten.