Wichtigste Erkenntnisse
- WeChatFerry (Windows) ist der zuverlässigste WeChat-PC-Hook 2026 – läuft neben WeChat ohne Binärmodifikation
- Ollama stellt eine lokale HTTP-API an Port 11434 bereit – 10 Zeilen Python reichen für die Nachrichtenweiterleitung
- Qwen2.5 7B Q4_K_M: empfohlen für chinesischen Chat – 5,5 GB VRAM, native CJK-Tokenisierung, 8–15 tok/s
- Always-on Mini-PC-Server (Minisforum UM890 Pro, ~35 W): hält den Bot 24/7 für Gruppen- und Einzelchats aktiv
- DSGVO Art. 28: lokale Inferenz vermeidet die Notwendigkeit eines Auftragsverarbeitungsvertrags mit LLM-Anbietern
Drei WeChat + LLM-Integrationsmuster
Muster 1 – WeChatFerry + Ollama (Windows): Am stabilsten. WeChatFerry hakt in den WeChat-PC-Client ein und stellt ein Python-SDK bereit. Funktioniert für persönliche Chats und Gruppenchats. Erfordert Windows mit installiertem WeChat PC.
Muster 2 – HTTP-Webhook-Brücke: Plattformübergreifend, aber komplexer einzurichten. Geeignet für Unternehmen mit WeChat Official Account Infrastruktur.
Muster 3 – Ollama + Open WebUI: Einfachste Option für einseitige Benachrichtigungen. Kein Hook erforderlich, aber kein interaktiver Chat.
Für die meisten Nutzer – besonders in China mit persönlichen Konten – ist Muster 1 (WeChatFerry + Ollama) die richtige Wahl für 2026.
WeChatFerry-Setup: Schritt für Schritt
- 1WeChat PC (offizielle Version von weixin.qq.com) auf Windows installieren
- 2WeChatFerry installieren:
pip install wcferry(Python 3.10+) - 3WeChatFerry-Daemon starten:
python -m wcferry.daemon - 4Nachrichtenhandler schreiben:
from wcferry import Wcf; wcf = Wcf(); wcf.enable_receiving_msg() - 5In der Nachrichtenschleife an Ollama senden:
requests.post("http://localhost:11434/api/generate", json={"model":"qwen2.5:7b","prompt":msg.content}) - 6Antwort senden: `wcf.send_text(response["response"], msg.roomid or msg.sender)`
import requests
from wcferry import Wcf
wcf = Wcf()
wcf.enable_receiving_msg()
while True:
msg = wcf.get_msg()
if msg and msg.from_self() is False:
resp = requests.post(
"http://localhost:11434/api/generate",
json={"model": "qwen2.5:7b", "prompt": msg.content, "stream": False}
).json()
wcf.send_text(resp["response"], msg.roomid or msg.sender)Ollama HTTP-API: Wichtige Endpunkte
Ollama betreibt nach ollama serve einen lokalen REST-Server unter http://localhost:11434. Für lokale Verbindungen ist keine Authentifizierung erforderlich.
Generieren (ein Zug): POST /api/generate — Body: {model, prompt, stream: false} — gibt {response, done} zurück
Chat (mehrere Züge): POST /api/chat — Body: `{model, messages: [{role, content}]}` — behält Gesprächskontext
Für WeChat-Integration /api/chat mit rollierendem Verlauf (letzte 10 Nachrichten) verwenden.
Mini-PC als Always-On-WeChat-LLM-Server
Minisforum UM890 Pro (Empfohlen): AMD Ryzen 9 8945HS, 32–64 GB DDR5. Qwen2.5 7B mit ~8 tok/s unter ROCm auf Linux. Stromverbrauch: ~35 W idle. Preis: ca. 320–420 €.
Mac Mini M4: Apple Silicon M4, 16–32 GB unified memory, ~18 tok/s via MLX. Stromverbrauch: ~20 W idle. Leiseste Option. Preis: ab 599 €.
Auto-Start: ollama serve und WeChatFerry-Bridge-Skript in systemd (Linux) oder Windows Task-Planer einbinden.
Beste Modelle für chinesischen WeChat-Chat
Qwen2.5 7B Q4_K_M (Erste Wahl): Von Alibaba mit nativer CJK-Tokenisierung entwickelt. 5,5 GB VRAM, 8–15 tok/s. Versteht chinesische Redewendungen und umgangssprachliche Formulierungen weit besser als westliche Modelle. Installation: ollama pull qwen2.5:7b.
Qwen2.5 14B Q4_K_M: Für komplexere Unterhaltungen mit 12–16 GB RAM. 9,5 GB VRAM, 4–8 tok/s.
Vermeiden: Llama 3 und Mistral – westliche Tokenizer verwenden 2–3× mehr Token für chinesischen Text.
Gruppenchat-Behandlung
WeChat-Gruppenchats erfordern explizite @Erwähnungs-Behandlung. WeChatFerry stellt msg.is_at bereit.
Empfehlung: nur antworten, wenn msg.is_at True ist oder eine Trigger-Phrase erkannt wird. Auf jede Gruppennachricht zu antworten löst WeChat-Ratenbegrenzungen aus.
Kontextmanagement: separate Gesprächsverläufe pro Benutzer (nach msg.sender indexiert) führen.
Datenschutz & DSGVO-Compliance
Lokale Inferenz bedeutet: Prompts, Antworten und Gesprächsverlauf verlassen niemals Ihre Hardware.
DSGVO Art. 28: Lokale LLMs vermeiden die Notwendigkeit eines Auftragsverarbeitungsvertrags mit einem LLM-Anbieter – eine wesentliche Compliance-Vereinfachung für Unternehmen.
BSI-Grundschutz: Lokale Inferenz erfüllt die Anforderungen an IT-Grundschutz nach BSI-Standard 200-2 für sensible Verarbeitungsprozesse.
Was dies NICHT abdeckt: WeChat-Nachrichtenmetadaten verbleiben auf Tencent-Servern gemäß den WeChat-Nutzungsbedingungen.
Häufig gestellte Fragen
Funktioniert WeChatFerry mit WeChat für Mac?
Nein. WeChatFerry hakt in die Windows-WeChat-PC-Client-DLLs ein und unterstützt WeChat für Mac nicht.
Sperrt Tencent mein Konto bei Verwendung eines Bots?
Persönliche Bots mit menschenähnlichen Antwortzeiten (1–5 Nachrichten pro Minute) lösen selten Sperren aus. Massennachrichten vermeiden.
Welches Ollama-Modell ist am besten für chinesischen Text?
Qwen2.5 7B Q4_K_M von Alibaba – native CJK-Tokenisierung, 30–40 % effizienter bei chinesischem Text als Llama oder Mistral.
Kann ich dies auf einem Laptop betreiben?
Ja. Ein 16 GB RAM Laptop betreibt Qwen2.5 7B mit 8–15 tok/s (CPU-only). Antwortlatenz: 3–8 Sekunden.
Erfüllt lokale Inferenz DSGVO-Anforderungen?
Lokale LLMs vermeiden Auftragsverarbeitungsverträge mit LLM-Anbietern. WeChat-Metadaten verbleiben auf Tencent-Servern.
Wie behandle ich mehrstufige Unterhaltungen?
Gesprächsverlauf als Python-Liste von {role, content}-Dicts nach Absender indexiert führen und die letzten 10–15 Nachrichten an /api/chat übergeben.
Weiterführende Lektüre
- WeChat-Bot mit lokalem LLM: Persönlicher Assistent — WeChatFerry-Tieftauchgang für persönliche Assistent-Einrichtung
- Bester Mini-PC für lokale LLMs — Hardware-Vergleich für Always-On-LLM-Server
- Lokale KI-Agenten mit MCP 2026 — WeChat-Bots mit Tool-Use erweitern