Wichtigste Erkenntnisse

Lokale Qwen-Bereitstellung erfüllt DSGVO-Artikel 44 (kein Drittlandtransfer), Artikel 25 (Datenschutz durch Technikgestaltung) und Artikel 5(1)(f) (Datenintegrität) durch eine einzige Architekturentscheidung
Mindest-Hardware: beliebige 12-GB-VRAM-GPU (RTX 3080, RTX 4070 Ti oder ähnlich) für Qwen 2.5 14B bei Q4_K_M via Ollama
Kritische Isolierungsschritte: Ollama-Port 11434 per Firewall auf LAN beschränken, Telemetrie deaktivieren, auf isoliertem Netzwerksegment betreiben
Artikel-30-Verarbeitungsverzeichnis: Modellversion, Quantisierung, Sitzungszeitstempel und SHA-256-Hash des Prompts protokollieren — niemals personenbezogene Dateninhalte selbst
Gesamte Einrichtungszeit von frischem OS bis erster DSGVO-sicherer Inferenz: unter 30 Minuten

Warum lokale Bereitstellung die DSGVO erfüllt

Die drei DSGVO-Artikel, die durch KI-Nutzung am direktesten betroffen sind, sind Artikel 44 (internationale Datentransfers), Artikel 25 (Datenschutz durch Technikgestaltung) und Artikel 5(1)(f) (Integrität und Vertraulichkeit). Die lokale LLM-Bereitstellung adressiert alle drei durch eine einzige Architekturentscheidung: Das Modell läuft auf Ihrer Hardware, innerhalb Ihrer Jurisdiktion, ohne ausgehenden Datentransfer.

Artikel 44 ist für Cloud-KI am schwierigsten zu erfüllen. Jeder Prompt mit personenbezogenen Daten, der an OpenAI, Anthropic oder Alibaba Cloud gesendet wird, erfordert eine Rechtsgrundlage für den Transfer — mindestens Standardvertragsklauseln, oft auch eine Transferfolgenabschätzung. Bei lokaler Inferenz findet kein Artikel-44-Transfer statt.

Artikel 25 verlangt, dass die Verarbeitung von Grund auf zum Schutz personenbezogener Daten konzipiert ist. Ein lokales Modell ist das Lehrbuchbeispiel: Standardmäßig verlässt keine Daten das Gebäude. Prüfer und Datenschutzbehörden sind mit dieser Architektur vertraut.

📍 In einem Satz

Qwen lokal zu betreiben erfüllt DSGVO-Artikel 44, 25 und 5(1)(f) durch eine einzige Architekturentscheidung: das Modell verarbeitet alle Daten auf Ihrer Hardware, innerhalb Ihrer Jurisdiktion.

💬 In einfachen Worten

Die DSGVO hat strenge Regeln zum Senden von Daten ins Ausland. Ein lokales KI-Modell hält Daten auf Ihren eigenen Maschinen — keine Daten überqueren Grenzen, daher gelten die Internationaltransfer-Regeln schlicht nicht.

Hardware-Anforderungen nach Organisationsgröße

Für einen einzelnen Datenschutzbeauftragten oder eine Rechtsabteilung: jede GPU mit 12 GB VRAM ermöglicht Qwen 2.5 14B Q4_K_M bei praktischen Inferenzgeschwindigkeiten (~18 Tok/s auf RTX 3080). Für ein Team mit 5–10 gemeinsamen Nutzern: 24 GB VRAM (RTX 3090 oder RTX 4090) verarbeitet mehrere gleichzeitige Anfragen.

Mindest-Setup: RTX 3080, RTX 4070 Ti oder beliebige 12-GB-VRAM-GPU. Dedizierte GPU empfohlen — keine GPU, die zwischen Gaming und LLM wechselt. CPU-Fallback über Ollama ist möglich, aber Inferenzgeschwindigkeit sinkt auf ~3 Tok/s.

Teamgröße	Empfohlene GPU	Modell	Erwartete Geschwindigkeit
1 Nutzer	RTX 3080 (12 GB)	Qwen 2.5 14B Q4	~18 Tok/s
2–5 Nutzer (gereihte Anfragen)	RTX 4070 Ti (12 GB)	Qwen 2.5 14B Q4	~22 Tok/s
5–10 Nutzer (geteilt)	RTX 3090 / 4090 (24 GB)	Qwen 2.5 14B Q5	~28 Tok/s
Langdokument-Team	RTX 3090 (24 GB)	Llama 4 Scout (10M Kontext)	~15 Tok/s

Ollama-Installation — Schritt für Schritt

Ollama auf Linux, macOS oder Windows installieren. Qwen 2.5 14B einmalig über HTTPS herunterladen. Danach ist Inferenz vollständig offline.

1
Ollama installieren
Why it matters: Einzeiler auf Linux: <code>curl -fsSL https://ollama.com/install.sh | sh</code>. macOS: .app von ollama.com herunterladen. Windows: .exe-Installer. Überprüfen: <code>ollama --version</code> gibt Versionsnummer aus.
2
Modell herunterladen (einmaliger HTTPS-Download)
Why it matters: <code>ollama pull qwen2.5:14b</code> ausführen. ~9 GB werden von Hugging Face über HTTPS heruntergeladen. Dies ist die einzige erforderliche externe Netzwerkverbindung. Für Air-Gap-Umgebungen: auf vernetztem Rechner herunterladen, GGUF-Datei per USB übertragen und mit <code>ollama create qwen2.5:14b --from /pfad/zur/datei.gguf</code> importieren.
3
Telemetrie deaktivieren
Why it matters: <code>~/.ollama/config.json</code> erstellen/bearbeiten und hinzufügen: <code>{"telemetry": false}</code>. Ollama sendet keine Inferenzdaten extern, aber Telemetrie-Pings beim Start. Deaktivierung eliminiert jede verbleibende Netzwerkaktivität.
4
Inferenz testen
Why it matters: <code>ollama run qwen2.5:14b</code> ausführen und Prompt eingeben. Bestätigen, dass Antwort lokal generiert wird. Mit <code>ss -tnp | grep ollama</code> (Linux) oder Wireshark verifizieren, dass keine ausgehenden Verbindungen während der Inferenz entstehen.

curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5:14b
ollama run qwen2.5:14b

Netzwerkisolierung

Ollama bietet standardmäßig eine HTTP-API auf Port 11434 an. Dieser Port muss auf LAN-Zugang beschränkt werden — niemals zum Internet geöffnet. Inferenz auf einem korrekt konfigurierten Ollama-Server erzeugt null ausgehenden Datenverkehr.

Auf Linux mit UFW: <code>ufw allow from 192.168.0.0/16 to any port 11434</code>, dann <code>ufw deny 11434</code>. Für Single-User-Nutzung Ollama nur an Localhost binden: <code>OLLAMA_HOST=127.0.0.1 ollama serve</code>.

•Important: Wenn Sie Open WebUI oder ein browserbasiertes Frontend für Ollama verwenden, stellen Sie sicher, dass auch das Frontend nur LAN-zugänglich ist. Die Isolierung der Ollama-API reicht nicht aus, wenn das Frontend öffentlich zugänglich ist.

Festplattenverschlüsselung — DSGVO-Artikel 5(1)(f)

DSGVO-Artikel 5(1)(f) verlangt, dass personenbezogene Daten mit angemessener Sicherheit verarbeitet werden, einschließlich Schutz vor unbefugtem Zugriff. Vollständige Festplattenverschlüsselung stellt sicher, dass bei Verlust oder Diebstahl eines Hardware-Assets die Modelldateien und protokollierten Daten nicht zugänglich sind.

Linux: LUKS2 mit dm-crypt ist der Standard — am besten bei OS-Installation aktivieren. macOS: FileVault ist integriert. Windows: BitLocker (Pro/Enterprise). Modell-Weights enthalten keine personenbezogenen Daten, aber Sitzungsprotokolle und Fine-Tuned-Modelle sollten als möglicherweise solche enthaltend behandelt werden.

Artikel-30-Protokoll — Was und wie protokollieren

DSGVO-Artikel 30 verpflichtet Organisationen zur Führung eines Verzeichnisses der Verarbeitungstätigkeiten, die personenbezogene Daten betreffen. Für eine LLM-Bereitstellung bedeutet das: Dokumentation von Verarbeitungszweck, Datenkategorien, technischen Maßnahmen und Aufbewahrungsfristen.

Was pro Inferenzsitzung protokolliert wird: (1) Modellname und -version, (2) Quantisierungsstufe, (3) Sitzungszeitstempel (ISO 8601), (4) SHA-256-Hash des Eingabe-Prompts — nicht der Rohtext. (5) Nutzerkennung (pseudonymisiert) falls zutreffend. Was NICHT protokolliert wird: Rohtext des Prompts, Rohtext der Antwort, extrahierte personenbezogene Daten.

Erfordert ein lokales LLM eine Datenschutz-Folgenabschätzung (DSFA)?

Möglicherweise. Eine DSFA ist erforderlich, wenn die Verarbeitung voraussichtlich ein hohes Risiko für Personen birgt — z. B. bei medizinischen Unterlagen, Mitarbeiterleistungsdaten oder Rechtsdokumenten im großen Maßstab. Ein einzelner Analyst, der Qwen 2.5 14B für Vertragsprüfung nutzt, löst wahrscheinlich keine obligatorische DSFA aus. Eine Gesundheitsorganisation, die täglich Hunderte von Patientenakten verarbeitet, wahrscheinlich schon.

Welches Qwen-Modell ist am besten für Rechts- und HR-Text in europäischen Sprachen?

Qwen 2.5 14B Q4_K_M ist die empfohlene Basis: stark in Deutsch, Französisch, Italienisch, Spanisch und Englisch auf dem 14B-Tier. Für VRAM-begrenzte Umgebungen (6–8 GB): Qwen 3 8B bietet gute mehrsprachige Leistung.

Qwen lokal einrichten für DSGVO-konforme Workflows