Skip to main content
PromptQuorumPromptQuorum
Startseite/Power Local LLM/Lokale KI hinter der Firewall: Offline-Deployment-Guide 2026
Coding Assistants

Lokale KI hinter der Firewall: Offline-Deployment-Guide 2026

·12 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Ollama, das gewählte Modell in Q4_K_M und alle Tokenizer-Dateien zunächst auf einem verbundenen Rechner herunterladen, dann per USB-SSD oder internes Netzwerk auf die Offline-Umgebung übertragen. Nach dem initialen Download ist kein Internet mehr nötig.

Lokale KI hinter einer Unternehmens-Firewall oder in einer Air-Gap-Umgebung zu betreiben erfordert, dass alle Abhängigkeiten vor dem Verlust des Internetzugangs heruntergeladen werden. Dieser Leitfaden bietet eine vollständige Vorab-Checkliste, einen Schritt-für-Schritt-Offline-Workflow für Ollama und llama.cpp sowie Hardware-Empfehlungen für Organisationen in Deutschland und im Bereich DSGVO-konformer Datenverarbeitung.

Wichtigste Erkenntnisse

  • Alles auf einem verbundenen Rechner herunterladen: Ollama-Binary, GGUF-Modell, Tokenizer-Configs
  • Per USB-SSD oder internes Netzwerk übertragen — nie Cloud-Sync verwenden
  • OLLAMA_MODELS-Umgebungsvariable auf das Offline-Modell-Verzeichnis setzen
  • Qwen2.5 14B bei Q4_K_M (9,5 GB) ist der empfohlene Offline-Standard
  • NAS-Dimensionierung: 20 GB pro 7B-Modell, 50 GB pro 14B, 100 GB pro 32B
  • DSGVO: Lokale Inferenz — keine Datenweitergabe an Dritte, kein Auftragsverarbeitungsvertrag nötig

Vorab-Checkliste — vor dem Offline-Gehen herunterladen

Alle Punkte auf einem verbundenen Rechner abhaken, bevor die Umgebung isoliert wird.

  1. 1
    Ollama-Binary — ollama.com für Ihr Betriebssystem herunterladen. Version ≥0.3.0 empfohlen.
  2. 2
    Modell-GGUFollama pull qwen2.5:14b-instruct-q4_K_M auf dem verbundenen Rechner ausführen.
  3. 3
    Tokenizer + Chat-Template — Ollama bündelt diese mit dem Modell-Manifest; kein separater Download nötig.
  4. 4
    Embedding-Modell (für Offline-RAG) — ollama pull nomic-embed-text.
  5. 5
    Verifikations-Hashsha256sum auf jede GGUF-Datei vor dem Transfer anwenden.

Download-Befehle für den verbundenen Rechner

Alle Befehle auf dem verbundenen Rechner ausführen, bevor der Transfer stattfindet.

  • ollama pull qwen2.5:14b-instruct-q4_K_M — 9,5 GB, empfohlener Standard
  • ollama pull qwen2.5:7b-instruct-q4_K_M — 5,5 GB, für VRAM-ärmere Maschinen
  • ollama pull nomic-embed-text — 274 MB, für Offline-RAG-Embeddings

Ollama Air-Gap-Workflow

Nach dem Dateitransfer auf die Offline-Maschine:

  1. 1
    Gesamtes ~/.ollama/-Verzeichnis auf denselben Pfad des Offline-Hosts kopieren.
  2. 2
    Ollama-Binary installieren: chmod +x ollama && sudo mv ollama /usr/local/bin/
  3. 3
    Modell-Verzeichnis setzen: export OLLAMA_MODELS=/pfad/zu/modellen
  4. 4
    Server starten: ollama serve — Logs prüfen, ob keine Netzwerkaufrufe stattfinden.
  5. 5
    Offline testen: ollama run qwen2.5:14b — sollte sofort ohne externe URL-Anfragen antworten.

llama.cpp Air-Gap-Workflow

llama.cpp ist nach Binary + GGUF vollständig eigenständig — keine Runtime-Abhängigkeiten.

  • Binary und GGUF-Datei auf die Offline-Maschine übertragen.
  • Ausführen: ./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080
  • OpenAI-kompatible API unter http://localhost:8080/v1 — Drop-in für jedes OpenAI-SDK.

NAS-Speicherdimensionierung für Offline-Modell-Bibliotheken

Eine Modell-Bibliothek für ein kleines Team hält typischerweise 3–6 Modelle in verschiedenen Größen.

  • Empfohlenes NAS für Modell-Speicherung: Synology DS923+ mit 4× 4-TB-Laufwerken im RAID 5 (~12 TB nutzbar)
  • Minimum für eine 2–3-Modell-Bibliothek: 2-TB-SSD
  • BSI-Grundschutz: NAS-Laufwerk in der Dateiserver-Grundkonfiguration (SYS.1.3) dokumentieren

DSGVO & BSI-Grundschutz für Offline-Deployments

Für DSGVO-konforme Deployments in Deutschland gelten bei lokaler Inferenz vereinfachte Anforderungen.

  • Keine Auftragsverarbeitung: Lokale Inferenz ohne Cloud-Anbindung erfordert keinen Auftragsverarbeitungsvertrag nach DSGVO Art. 28.
  • BSI-Grundschutz: Air-Gapped-Server-Deployment entspricht dem Baustein SYS.1.1 (Allgemeiner Server). Netzwerkisolierung in der Systemdokumentation erfassen.
  • Protokollierung: Ollama protokolliert standardmäßig keine Prompts. Falls Revisionsprotokoll erforderlich, Middleware zwischenschalten und lokal speichern.
  • Firewall-Regel: iptables -A OUTPUT -j DROP für den Inferenz-Server dokumentieren, um Netzwerkisolierung nachzuweisen.

Offline-RAG-Setup

RAG vollständig offline erfordert: lokales LLM + lokales Embedding-Modell + lokale Vektordatenbank.

  1. 1
    Embedding-Modell: ollama pull nomic-embed-text auf dem verbundenen Rechner. Mit dem Ollama-Verzeichnis übertragen.
  2. 2
    Vektordatenbank: Chroma als eigenständiges Binary (kein Python nötig); alternativ Qdrant-Binary-Release.
  3. 3
    Dokumenten-Ingestion: LangChain oder LlamaIndex offline nutzen (Wheels vor dem Offline-Gehen herunterladen).
  4. 4
    Query-Flow: Dokument → Embedding via lokales nomic-embed-text → Top-k-Chunks aus lokaler DB → Qwen2.5 → Antwort. Kein externer Aufruf.

FAQ

Macht Ollama Netzwerkaufrufe im Offline-Betrieb?

Nein. Ollama kontaktiert ollama.com nur beim Herunterladen oder Aktualisieren von Modellen. ollama serve mit lokalem Cache macht keine ausgehenden Verbindungen.

Ist das Offline-Deployment DSGVO-konform?

Ja. Lokale Inferenz ohne Cloud-Anbindung erfordert keinen Auftragsverarbeitungsvertrag nach DSGVO Art. 28, da keine Daten an Dritte übermittelt werden.

Welches ist das kleinste Modell für gutes Deutsch offline?

Qwen2.5 7B bei Q4_K_M (5,5 GB VRAM). Deutschsprachige Ausgaben sind kohärent; für anspruchsvollere Aufgaben Qwen2.5 14B verwenden.

← Zurück zu Power Local LLM

Lokale KI offline hinter Firewall 2026: Deployment-Guide