Welches Modell für chinesischen WeChat-Chat?

Qwen3 7B Q4_K_M – native CJK-Tokenisierung, 5,5 GB VRAM.

Startseite/Lokale LLMs Pro/WeChat + Lokales LLM: Entwicklerleitfaden 2026

Local AI Agents & Tool Use

WeChat + Lokales LLM: Entwicklerleitfaden 2026

Aktualisiert: 2026-05-26·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

WeChat mit einem lokalen LLM verbinden: Ollama auf einem Mini-PC betreiben, WeChatFerry für die Windows-PC-Client-Integration installieren und eine Python-Brücke zur Ollama HTTP-API schreiben. Empfohlen: Qwen3 7B Q4_K_M für chinesische Konversationen – 5,5 GB VRAM, native CJK-Tokenisierung.

WeChat mit einem lokalen LLM zu verbinden ermöglicht einen privaten KI-Assistenten in der meistgenutzten Messaging-App weltweit – ohne eine einzige Nachricht an eine Cloud-API zu senden. Dieser Leitfaden behandelt drei Integrationsmuster, die Modellauswahl für chinesischen Text und wie lokale Inferenz DSGVO- und China-DSL-Anforderungen erfüllt.

Präsentation: WeChat + Lokales LLM: Entwicklerleitfaden 2026

Interaktive Folien für diesen Artikel.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

WeChatFerry (Windows) ist der zuverlässigste WeChat-PC-Hook 2026 – läuft neben WeChat ohne Binärmodifikation
Ollama stellt eine lokale HTTP-API an Port 11434 bereit – 10 Zeilen Python reichen für die Nachrichtenweiterleitung
Qwen3 7B Q4_K_M: empfohlen für chinesischen Chat – 5,5 GB VRAM, native CJK-Tokenisierung, 8–15 tok/s
Always-on Mini-PC-Server (Minisforum UM890 Pro, ~35 W): hält den Bot 24/7 für Gruppen- und Einzelchats aktiv
DSGVO Art. 28: lokale Inferenz vermeidet die Notwendigkeit eines Auftragsverarbeitungsvertrags mit LLM-Anbietern

Drei WeChat + LLM-Integrationsmuster

Muster 1 – WeChatFerry + Ollama (Windows): Am stabilsten. WeChatFerry hakt in den WeChat-PC-Client ein und stellt ein Python-SDK bereit. Funktioniert für persönliche Chats und Gruppenchats. Erfordert Windows mit installiertem WeChat PC.

Muster 2 – HTTP-Webhook-Brücke: Plattformübergreifend, aber komplexer einzurichten. Geeignet für Unternehmen mit WeChat Official Account Infrastruktur.

Muster 3 – Ollama + Open WebUI: Einfachste Option für einseitige Benachrichtigungen. Kein Hook erforderlich, aber kein interaktiver Chat.

Für die meisten Nutzer – besonders in China mit persönlichen Konten – ist Muster 1 (WeChatFerry + Ollama) die richtige Wahl für 2026.

WeChatFerry-Setup: Schritt für Schritt

1
WeChat PC (offizielle Version von weixin.qq.com) auf Windows installieren
2
WeChatFerry installieren: pip install wcferry (Python 3.10+)
3
WeChatFerry-Daemon starten: python -m wcferry.daemon
4
Nachrichtenhandler schreiben: from wcferry import Wcf; wcf = Wcf(); wcf.enable_receiving_msg()
5
In der Nachrichtenschleife an Ollama senden: requests.post("http://localhost:11434/api/generate", json={"model":"qwen2.5:7b","prompt":msg.content})
6
Antwort senden: `wcf.send_text(response["response"], msg.roomid or msg.sender)`

python

import requests
from wcferry import Wcf

wcf = Wcf()
wcf.enable_receiving_msg()

while True:
    msg = wcf.get_msg()
    if msg and msg.from_self() is False:
        resp = requests.post(
            "http://localhost:11434/api/generate",
            json={"model": "qwen2.5:7b", "prompt": msg.content, "stream": False}
        ).json()
        wcf.send_text(resp["response"], msg.roomid or msg.sender)

Ollama HTTP-API: Wichtige Endpunkte

Ollama betreibt nach ollama serve einen lokalen REST-Server unter http://localhost:11434. Für lokale Verbindungen ist keine Authentifizierung erforderlich.

Generieren (ein Zug): POST /api/generate — Body: {model, prompt, stream: false} — gibt {response, done} zurück

Chat (mehrere Züge): POST /api/chat — Body: `{model, messages: [{role, content}]}` — behält Gesprächskontext

Für WeChat-Integration /api/chat mit rollierendem Verlauf (letzte 10 Nachrichten) verwenden.

Mini-PC als Always-On-WeChat-LLM-Server

Minisforum UM890 Pro (Empfohlen): AMD Ryzen 9 8945HS, 32–64 GB DDR5. Qwen3 7B mit ~8 tok/s unter ROCm auf Linux. Stromverbrauch: ~35 W idle. Preis: ca. 320–420 €.

Mac Mini M4: Apple Silicon M4, 16–32 GB unified memory, ~18 tok/s via MLX. Stromverbrauch: ~20 W idle. Leiseste Option. Preis: ab 599 €.

Auto-Start: ollama serve und WeChatFerry-Bridge-Skript in systemd (Linux) oder Windows Task-Planer einbinden.

Beste Modelle für chinesischen WeChat-Chat

Qwen3 7B Q4_K_M (Erste Wahl): Von Alibaba mit nativer CJK-Tokenisierung entwickelt. 5,5 GB VRAM, 8–15 tok/s. Versteht chinesische Redewendungen und umgangssprachliche Formulierungen weit besser als westliche Modelle. Installation: ollama pull qwen2.5:7b.

Qwen3 14B Q4_K_M: Für komplexere Unterhaltungen mit 12–16 GB RAM. 9,5 GB VRAM, 4–8 tok/s.

Vermeiden: Llama 3 und Mistral – westliche Tokenizer verwenden 2–3× mehr Token für chinesischen Text.

Gruppenchat-Behandlung

WeChat-Gruppenchats erfordern explizite @Erwähnungs-Behandlung. WeChatFerry stellt msg.is_at bereit.

Empfehlung: nur antworten, wenn msg.is_at True ist oder eine Trigger-Phrase erkannt wird. Auf jede Gruppennachricht zu antworten löst WeChat-Ratenbegrenzungen aus.

Kontextmanagement: separate Gesprächsverläufe pro Benutzer (nach msg.sender indexiert) führen.

Datenschutz & DSGVO-Compliance

Lokale Inferenz bedeutet: Prompts, Antworten und Gesprächsverlauf verlassen niemals Ihre Hardware.

DSGVO Art. 28: Lokale LLMs vermeiden die Notwendigkeit eines Auftragsverarbeitungsvertrags mit einem LLM-Anbieter – eine wesentliche Compliance-Vereinfachung für Unternehmen.

BSI-Grundschutz: Lokale Inferenz erfüllt die Anforderungen an IT-Grundschutz nach BSI-Standard 200-2 für sensible Verarbeitungsprozesse.

Was dies NICHT abdeckt: WeChat-Nachrichtenmetadaten verbleiben auf Tencent-Servern gemäß den WeChat-Nutzungsbedingungen.

Häufig gestellte Fragen

Funktioniert WeChatFerry mit WeChat für Mac?

Nein. WeChatFerry hakt in die Windows-WeChat-PC-Client-DLLs ein und unterstützt WeChat für Mac nicht.

Sperrt Tencent mein Konto bei Verwendung eines Bots?

Persönliche Bots mit menschenähnlichen Antwortzeiten (1–5 Nachrichten pro Minute) lösen selten Sperren aus. Massennachrichten vermeiden.

Welches Ollama-Modell ist am besten für chinesischen Text?

Qwen3 7B Q4_K_M von Alibaba – native CJK-Tokenisierung, 30–40 % effizienter bei chinesischem Text als Llama oder Mistral.

Kann ich dies auf einem Laptop betreiben?

Ja. Ein 16 GB RAM Laptop betreibt Qwen3 7B mit 8–15 tok/s (CPU-only). Antwortlatenz: 3–8 Sekunden.

Erfüllt lokale Inferenz DSGVO-Anforderungen?

Lokale LLMs vermeiden Auftragsverarbeitungsverträge mit LLM-Anbietern. WeChat-Metadaten verbleiben auf Tencent-Servern.

Wie behandle ich mehrstufige Unterhaltungen?

Gesprächsverlauf als Python-Liste von {role, content}-Dicts nach Absender indexiert führen und die letzten 10–15 Nachrichten an /api/chat übergeben.

Weiterführende Lektüre

WeChat-Bot mit lokalem LLM: Persönlicher Assistent — WeChatFerry-Tieftauchgang für persönliche Assistent-Einrichtung
Bester Mini-PC für lokale LLMs — Hardware-Vergleich für Always-On-LLM-Server
Lokale KI-Agenten mit MCP 2026 — WeChat-Bots mit Tool-Use erweitern

← Zurück zu Lokale LLMs Pro