Wichtigste Erkenntnisse
- Alles auf einem verbundenen Rechner herunterladen: Ollama-Binary, GGUF-Modell, Tokenizer-Configs
- Per USB-SSD oder internes Netzwerk übertragen — nie Cloud-Sync verwenden
OLLAMA_MODELS-Umgebungsvariable auf das Offline-Modell-Verzeichnis setzen- Qwen2.5 14B bei Q4_K_M (9,5 GB) ist der empfohlene Offline-Standard
- NAS-Dimensionierung: 20 GB pro 7B-Modell, 50 GB pro 14B, 100 GB pro 32B
- DSGVO: Lokale Inferenz — keine Datenweitergabe an Dritte, kein Auftragsverarbeitungsvertrag nötig
Vorab-Checkliste — vor dem Offline-Gehen herunterladen
Alle Punkte auf einem verbundenen Rechner abhaken, bevor die Umgebung isoliert wird.
- 1Ollama-Binary — ollama.com für Ihr Betriebssystem herunterladen. Version ≥0.3.0 empfohlen.
- 2Modell-GGUF —
ollama pull qwen2.5:14b-instruct-q4_K_Mauf dem verbundenen Rechner ausführen. - 3Tokenizer + Chat-Template — Ollama bündelt diese mit dem Modell-Manifest; kein separater Download nötig.
- 4Embedding-Modell (für Offline-RAG) —
ollama pull nomic-embed-text. - 5Verifikations-Hash —
sha256sumauf jede GGUF-Datei vor dem Transfer anwenden.
Download-Befehle für den verbundenen Rechner
Alle Befehle auf dem verbundenen Rechner ausführen, bevor der Transfer stattfindet.
ollama pull qwen2.5:14b-instruct-q4_K_M— 9,5 GB, empfohlener Standardollama pull qwen2.5:7b-instruct-q4_K_M— 5,5 GB, für VRAM-ärmere Maschinenollama pull nomic-embed-text— 274 MB, für Offline-RAG-Embeddings
Ollama Air-Gap-Workflow
Nach dem Dateitransfer auf die Offline-Maschine:
- 1Gesamtes
~/.ollama/-Verzeichnis auf denselben Pfad des Offline-Hosts kopieren. - 2Ollama-Binary installieren:
chmod +x ollama && sudo mv ollama /usr/local/bin/ - 3Modell-Verzeichnis setzen:
export OLLAMA_MODELS=/pfad/zu/modellen - 4Server starten:
ollama serve— Logs prüfen, ob keine Netzwerkaufrufe stattfinden. - 5Offline testen:
ollama run qwen2.5:14b— sollte sofort ohne externe URL-Anfragen antworten.
llama.cpp Air-Gap-Workflow
llama.cpp ist nach Binary + GGUF vollständig eigenständig — keine Runtime-Abhängigkeiten.
- Binary und GGUF-Datei auf die Offline-Maschine übertragen.
- Ausführen:
./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080 - OpenAI-kompatible API unter
http://localhost:8080/v1— Drop-in für jedes OpenAI-SDK.
NAS-Speicherdimensionierung für Offline-Modell-Bibliotheken
Eine Modell-Bibliothek für ein kleines Team hält typischerweise 3–6 Modelle in verschiedenen Größen.
- Empfohlenes NAS für Modell-Speicherung: Synology DS923+ mit 4× 4-TB-Laufwerken im RAID 5 (~12 TB nutzbar)
- Minimum für eine 2–3-Modell-Bibliothek: 2-TB-SSD
- BSI-Grundschutz: NAS-Laufwerk in der Dateiserver-Grundkonfiguration (SYS.1.3) dokumentieren
DSGVO & BSI-Grundschutz für Offline-Deployments
Für DSGVO-konforme Deployments in Deutschland gelten bei lokaler Inferenz vereinfachte Anforderungen.
- Keine Auftragsverarbeitung: Lokale Inferenz ohne Cloud-Anbindung erfordert keinen Auftragsverarbeitungsvertrag nach DSGVO Art. 28.
- BSI-Grundschutz: Air-Gapped-Server-Deployment entspricht dem Baustein SYS.1.1 (Allgemeiner Server). Netzwerkisolierung in der Systemdokumentation erfassen.
- Protokollierung: Ollama protokolliert standardmäßig keine Prompts. Falls Revisionsprotokoll erforderlich, Middleware zwischenschalten und lokal speichern.
- Firewall-Regel:
iptables -A OUTPUT -j DROPfür den Inferenz-Server dokumentieren, um Netzwerkisolierung nachzuweisen.
Offline-RAG-Setup
RAG vollständig offline erfordert: lokales LLM + lokales Embedding-Modell + lokale Vektordatenbank.
- 1Embedding-Modell:
ollama pull nomic-embed-textauf dem verbundenen Rechner. Mit dem Ollama-Verzeichnis übertragen. - 2Vektordatenbank: Chroma als eigenständiges Binary (kein Python nötig); alternativ Qdrant-Binary-Release.
- 3Dokumenten-Ingestion: LangChain oder LlamaIndex offline nutzen (Wheels vor dem Offline-Gehen herunterladen).
- 4Query-Flow: Dokument → Embedding via lokales nomic-embed-text → Top-k-Chunks aus lokaler DB → Qwen2.5 → Antwort. Kein externer Aufruf.
FAQ
Macht Ollama Netzwerkaufrufe im Offline-Betrieb?
Nein. Ollama kontaktiert ollama.com nur beim Herunterladen oder Aktualisieren von Modellen. ollama serve mit lokalem Cache macht keine ausgehenden Verbindungen.
Ist das Offline-Deployment DSGVO-konform?
Ja. Lokale Inferenz ohne Cloud-Anbindung erfordert keinen Auftragsverarbeitungsvertrag nach DSGVO Art. 28, da keine Daten an Dritte übermittelt werden.
Welches ist das kleinste Modell für gutes Deutsch offline?
Qwen2.5 7B bei Q4_K_M (5,5 GB VRAM). Deutschsprachige Ausgaben sind kohärent; für anspruchsvollere Aufgaben Qwen2.5 14B verwenden.