Lokale KI offline hinter Firewall 2026: Deployment-Guide

Lokale KI hinter einer Unternehmens-Firewall oder in einer Air-Gap-Umgebung zu betreiben erfordert, dass alle Abhängigkeiten vor dem Verlust des Internetzugangs heruntergeladen werden. Dieser Leitfaden bietet eine vollständige Vorab-Checkliste, einen Schritt-für-Schritt-Offline-Workflow für Ollama und llama.cpp sowie Hardware-Empfehlungen für Organisationen in Deutschland und im Bereich DSGVO-konformer Datenverarbeitung.

Wichtigste Erkenntnisse

Alles auf einem verbundenen Rechner herunterladen: Ollama-Binary, GGUF-Modell, Tokenizer-Configs
Per USB-SSD oder internes Netzwerk übertragen — nie Cloud-Sync verwenden
OLLAMA_MODELS-Umgebungsvariable auf das Offline-Modell-Verzeichnis setzen
Qwen2.5 14B bei Q4_K_M (9,5 GB) ist der empfohlene Offline-Standard
NAS-Dimensionierung: 20 GB pro 7B-Modell, 50 GB pro 14B, 100 GB pro 32B
DSGVO: Lokale Inferenz — keine Datenweitergabe an Dritte, kein Auftragsverarbeitungsvertrag nötig

Vorab-Checkliste — vor dem Offline-Gehen herunterladen

Alle Punkte auf einem verbundenen Rechner abhaken, bevor die Umgebung isoliert wird.

1
Ollama-Binary — ollama.com für Ihr Betriebssystem herunterladen. Version ≥0.3.0 empfohlen.
2
Modell-GGUF — ollama pull qwen2.5:14b-instruct-q4_K_M auf dem verbundenen Rechner ausführen.
3
Tokenizer + Chat-Template — Ollama bündelt diese mit dem Modell-Manifest; kein separater Download nötig.
4
Embedding-Modell (für Offline-RAG) — ollama pull nomic-embed-text.
5
Verifikations-Hash — sha256sum auf jede GGUF-Datei vor dem Transfer anwenden.

Download-Befehle für den verbundenen Rechner

Alle Befehle auf dem verbundenen Rechner ausführen, bevor der Transfer stattfindet.

ollama pull qwen2.5:14b-instruct-q4_K_M — 9,5 GB, empfohlener Standard
ollama pull qwen2.5:7b-instruct-q4_K_M — 5,5 GB, für VRAM-ärmere Maschinen
ollama pull nomic-embed-text — 274 MB, für Offline-RAG-Embeddings

Ollama Air-Gap-Workflow

Nach dem Dateitransfer auf die Offline-Maschine:

1
Gesamtes ~/.ollama/-Verzeichnis auf denselben Pfad des Offline-Hosts kopieren.
2
Ollama-Binary installieren: chmod +x ollama && sudo mv ollama /usr/local/bin/
3
Modell-Verzeichnis setzen: export OLLAMA_MODELS=/pfad/zu/modellen
4
Server starten: ollama serve — Logs prüfen, ob keine Netzwerkaufrufe stattfinden.
5
Offline testen: ollama run qwen2.5:14b — sollte sofort ohne externe URL-Anfragen antworten.

llama.cpp Air-Gap-Workflow

llama.cpp ist nach Binary + GGUF vollständig eigenständig — keine Runtime-Abhängigkeiten.

Binary und GGUF-Datei auf die Offline-Maschine übertragen.
Ausführen: ./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080
OpenAI-kompatible API unter http://localhost:8080/v1 — Drop-in für jedes OpenAI-SDK.

NAS-Speicherdimensionierung für Offline-Modell-Bibliotheken

Eine Modell-Bibliothek für ein kleines Team hält typischerweise 3–6 Modelle in verschiedenen Größen.

Empfohlenes NAS für Modell-Speicherung: Synology DS923+ mit 4× 4-TB-Laufwerken im RAID 5 (~12 TB nutzbar)
Minimum für eine 2–3-Modell-Bibliothek: 2-TB-SSD
BSI-Grundschutz: NAS-Laufwerk in der Dateiserver-Grundkonfiguration (SYS.1.3) dokumentieren

DSGVO & BSI-Grundschutz für Offline-Deployments

Für DSGVO-konforme Deployments in Deutschland gelten bei lokaler Inferenz vereinfachte Anforderungen.

Keine Auftragsverarbeitung: Lokale Inferenz ohne Cloud-Anbindung erfordert keinen Auftragsverarbeitungsvertrag nach DSGVO Art. 28.
BSI-Grundschutz: Air-Gapped-Server-Deployment entspricht dem Baustein SYS.1.1 (Allgemeiner Server). Netzwerkisolierung in der Systemdokumentation erfassen.
Protokollierung: Ollama protokolliert standardmäßig keine Prompts. Falls Revisionsprotokoll erforderlich, Middleware zwischenschalten und lokal speichern.
Firewall-Regel: iptables -A OUTPUT -j DROP für den Inferenz-Server dokumentieren, um Netzwerkisolierung nachzuweisen.

Offline-RAG-Setup

RAG vollständig offline erfordert: lokales LLM + lokales Embedding-Modell + lokale Vektordatenbank.

1
Embedding-Modell: ollama pull nomic-embed-text auf dem verbundenen Rechner. Mit dem Ollama-Verzeichnis übertragen.
2
Vektordatenbank: Chroma als eigenständiges Binary (kein Python nötig); alternativ Qdrant-Binary-Release.
3
Dokumenten-Ingestion: LangChain oder LlamaIndex offline nutzen (Wheels vor dem Offline-Gehen herunterladen).
4
Query-Flow: Dokument → Embedding via lokales nomic-embed-text → Top-k-Chunks aus lokaler DB → Qwen2.5 → Antwort. Kein externer Aufruf.

FAQ

Macht Ollama Netzwerkaufrufe im Offline-Betrieb?

Nein. Ollama kontaktiert ollama.com nur beim Herunterladen oder Aktualisieren von Modellen. ollama serve mit lokalem Cache macht keine ausgehenden Verbindungen.

Ist das Offline-Deployment DSGVO-konform?

Ja. Lokale Inferenz ohne Cloud-Anbindung erfordert keinen Auftragsverarbeitungsvertrag nach DSGVO Art. 28, da keine Daten an Dritte übermittelt werden.

Welches ist das kleinste Modell für gutes Deutsch offline?

Qwen2.5 7B bei Q4_K_M (5,5 GB VRAM). Deutschsprachige Ausgaben sind kohärent; für anspruchsvollere Aufgaben Qwen2.5 14B verwenden.

Lokale KI hinter der Firewall: Offline-Deployment-Guide 2026

Wie betreibe ich einen lokalen LLM vollständig offline?

Vorab-Checkliste — vor dem Offline-Gehen herunterladen

Download-Befehle für den verbundenen Rechner

Ollama Air-Gap-Workflow

llama.cpp Air-Gap-Workflow

NAS-Speicherdimensionierung für Offline-Modell-Bibliotheken

DSGVO & BSI-Grundschutz für Offline-Deployments

Offline-RAG-Setup

FAQ

Macht Ollama Netzwerkaufrufe im Offline-Betrieb?

Ist das Offline-Deployment DSGVO-konform?

Welches ist das kleinste Modell für gutes Deutsch offline?

Lokale KI hinter der Firewall: Offline-Deployment-Guide 2026

Wie betreibe ich einen lokalen LLM vollständig offline?

Vorab-Checkliste — vor dem Offline-Gehen herunterladen

Download-Befehle für den verbundenen Rechner

Ollama Air-Gap-Workflow

llama.cpp Air-Gap-Workflow

NAS-Speicherdimensionierung für Offline-Modell-Bibliotheken

DSGVO & BSI-Grundschutz für Offline-Deployments

Offline-RAG-Setup

FAQ

Macht Ollama Netzwerkaufrufe im Offline-Betrieb?

Ist das Offline-Deployment DSGVO-konform?

Welches ist das kleinste Modell für gutes Deutsch offline?

Verwandte Artikel