WeChatFerry fonctionne-t-il sur Mac ?

Non, uniquement sur le client WeChat PC Windows.

Quel modèle pour le texte chinois ?

Qwen3 7B Q4_K_M — tokenisation CJK native, 5,5 Go VRAM.

Accueil/LLM locaux avancés/WeChat + LLM local : Guide développeur 2026

Local AI Agents & Tool Use

WeChat + LLM local : Guide développeur 2026

Dernière mise à jour: 2026-05-26·11 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Connectez WeChat à un LLM local en exécutant Ollama sur un mini PC, en installant WeChatFerry pour intercepter les messages WeChat PC, et en écrivant un bridge Python vers l'API HTTP Ollama. Recommandé : Qwen3 7B Q4_K_M pour les conversations en chinois.

Connecter WeChat à un LLM local offre un assistant IA privé dans l'application de messagerie la plus utilisée au monde, sans envoyer un seul message à une API cloud. Ce guide couvre trois patterns d'intégration, le choix du modèle pour le texte chinois, et la conformité RGPD et DSL chinoise.

Présentation: WeChat + LLM local : Guide développeur 2026

Diaporama interactif pour cet article.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

WeChatFerry (Windows) est le hook WeChat PC le plus fiable en 2026
Ollama expose une API HTTP locale sur le port 11434 — 10 lignes de Python suffisent
Qwen3 7B Q4_K_M : recommandé pour le chat en chinois — 5,5 Go VRAM, tokenisation CJK native
Mini PC always-on (Minisforum UM890 Pro, ~35 W) pour un bot disponible 24/7
Inférence locale : zéro donnée transmise vers le cloud — conformité RGPD Art. 28

Trois patterns d'intégration WeChat + LLM

Pattern 1 — WeChatFerry + Ollama (Windows) : Le plus stable. WeChatFerry intercepte le client WeChat PC et expose un SDK Python. Fonctionne pour les chats personnels et de groupe.

Pattern 2 — Pont HTTP webhook : Multiplateforme, plus complexe. Adapté aux entreprises avec infrastructure WeChat Official Account.

Pattern 3 — Ollama + Open WebUI : Option la plus simple pour des notifications unidirectionnelles. Aucun hook requis.

Configuration WeChatFerry : étape par étape

1
Installer WeChat PC (version officielle depuis weixin.qq.com) sur Windows
2
Installer WeChatFerry : pip install wcferry (Python 3.10+)
3
Démarrer le daemon : python -m wcferry.daemon
4
Écrire le gestionnaire de messages et router vers Ollama localhost:11434
5
Envoyer la réponse : wcf.send_text(response, msg.roomid or msg.sender)

python

import requests
from wcferry import Wcf

wcf = Wcf()
wcf.enable_receiving_msg()

while True:
    msg = wcf.get_msg()
    if msg and msg.from_self() is False:
        resp = requests.post(
            "http://localhost:11434/api/generate",
            json={"model": "qwen2.5:7b", "prompt": msg.content, "stream": False}
        ).json()
        wcf.send_text(resp["response"], msg.roomid or msg.sender)

API HTTP Ollama : points de terminaison clés

Ollama expose un serveur REST local sur http://localhost:11434 après ollama serve. Aucune authentification requise pour les connexions locales.

Génération (tour unique) : POST /api/generate — corps : {model, prompt, stream: false} — retourne {response, done}

Chat (multi-tours) : POST /api/chat — corps : `{model, messages: [{role, content}]}`

Mini PC comme serveur WeChat LLM always-on

Minisforum UM890 Pro (Recommandé) : AMD Ryzen 9 8945HS, 32–64 Go DDR5. ~8 tok/s sur Qwen3 7B. Consommation : ~35 W en veille. Prix : environ 320–420 €.

Mac Mini M4 : Apple Silicon M4, 16–32 Go RAM unifiée, ~18 tok/s. Consommation : ~20 W. Prix : à partir de 599 €.

Meilleurs modèles pour le chat WeChat en chinois

Qwen3 7B Q4_K_M (Premier choix) : Développé par Alibaba avec tokenisation CJK native. 5,5 Go VRAM, 8–15 tok/s. Installation : ollama pull qwen2.5:7b.

Qwen3 14B Q4_K_M : Pour des conversations plus riches avec 12–16 Go de RAM disponible.

À éviter : Llama 3 et Mistral — tokeniseurs occidentaux, 2–3× plus de tokens pour le texte chinois.

Gestion des chats de groupe

Les chats de groupe WeChat nécessitent la gestion des mentions @. WeChatFerry expose msg.is_at.

Bonne pratique : répondre uniquement quand msg.is_at est True ou lors d'un mot déclencheur. Maintenir des historiques séparés par utilisateur (msg.sender).

Confidentialité & conformité RGPD

L'inférence locale signifie que les prompts, réponses et historiques ne quittent jamais votre matériel.

RGPD Art. 28 : Les LLM locaux évitent le besoin d'un accord de traitement des données avec un fournisseur LLM.

Ce que cela ne couvre PAS : Les métadonnées des messages WeChat restent sur les serveurs Tencent.

Questions fréquentes

WeChatFerry fonctionne-t-il avec WeChat pour Mac ?

Non. WeChatFerry ne supporte que le client WeChat PC sur Windows.

Tencent peut-il bannir mon compte pour l'utilisation d'un bot ?

Les bots personnels avec des taux de réponse humains (1–5 messages/min) déclenchent rarement des bannissements.

Quel modèle Ollama pour le chinois ?

Qwen3 7B Q4_K_M — tokenisation CJK native, 30–40% plus efficace que Llama ou Mistral.

Puis-je utiliser un laptop ?

Oui. 16 Go RAM suffit pour Qwen3 7B en mode CPU-only, 8–15 tok/s.

Conformité RGPD avec un LLM local ?

Les LLM locaux évitent les accords DPA avec les fournisseurs cloud. Les métadonnées WeChat restent chez Tencent.

Comment gérer les conversations multi-tours ?

Maintenir l'historique comme liste de dicts {role, content} par expéditeur, transmettre les 10–15 derniers messages à /api/chat.

Lecture connexe

← Retour aux LLM locaux avancés