Skip to main content
PromptQuorumPromptQuorum
Accueil/Power Local LLM/WeChat + LLM local : Guide développeur 2026
Local AI Agents & Tool Use

WeChat + LLM local : Guide développeur 2026

·11 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Connectez WeChat à un LLM local en exécutant Ollama sur un mini PC, en installant WeChatFerry pour intercepter les messages WeChat PC, et en écrivant un bridge Python vers l'API HTTP Ollama. Recommandé : Qwen2.5 7B Q4_K_M pour les conversations en chinois.

Connecter WeChat à un LLM local offre un assistant IA privé dans l'application de messagerie la plus utilisée au monde, sans envoyer un seul message à une API cloud. Ce guide couvre trois patterns d'intégration, le choix du modèle pour le texte chinois, et la conformité RGPD et DSL chinoise.

Présentation: WeChat + LLM local : Guide développeur 2026

Diaporama interactif pour cet article.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • WeChatFerry (Windows) est le hook WeChat PC le plus fiable en 2026
  • Ollama expose une API HTTP locale sur le port 11434 — 10 lignes de Python suffisent
  • Qwen2.5 7B Q4_K_M : recommandé pour le chat en chinois — 5,5 Go VRAM, tokenisation CJK native
  • Mini PC always-on (Minisforum UM890 Pro, ~35 W) pour un bot disponible 24/7
  • Inférence locale : zéro donnée transmise vers le cloud — conformité RGPD Art. 28

Trois patterns d'intégration WeChat + LLM

Pattern 1 — WeChatFerry + Ollama (Windows) : Le plus stable. WeChatFerry intercepte le client WeChat PC et expose un SDK Python. Fonctionne pour les chats personnels et de groupe.

Pattern 2 — Pont HTTP webhook : Multiplateforme, plus complexe. Adapté aux entreprises avec infrastructure WeChat Official Account.

Pattern 3 — Ollama + Open WebUI : Option la plus simple pour des notifications unidirectionnelles. Aucun hook requis.

Configuration WeChatFerry : étape par étape

  1. 1
    Installer WeChat PC (version officielle depuis weixin.qq.com) sur Windows
  2. 2
    Installer WeChatFerry : pip install wcferry (Python 3.10+)
  3. 3
    Démarrer le daemon : python -m wcferry.daemon
  4. 4
    Écrire le gestionnaire de messages et router vers Ollama localhost:11434
  5. 5
    Envoyer la réponse : wcf.send_text(response, msg.roomid or msg.sender)
python
import requests
from wcferry import Wcf

wcf = Wcf()
wcf.enable_receiving_msg()

while True:
    msg = wcf.get_msg()
    if msg and msg.from_self() is False:
        resp = requests.post(
            "http://localhost:11434/api/generate",
            json={"model": "qwen2.5:7b", "prompt": msg.content, "stream": False}
        ).json()
        wcf.send_text(resp["response"], msg.roomid or msg.sender)

API HTTP Ollama : points de terminaison clés

Ollama expose un serveur REST local sur http://localhost:11434 après ollama serve. Aucune authentification requise pour les connexions locales.

Génération (tour unique) : POST /api/generate — corps : {model, prompt, stream: false} — retourne {response, done}

Chat (multi-tours) : POST /api/chat — corps : `{model, messages: [{role, content}]}`

Mini PC comme serveur WeChat LLM always-on

Minisforum UM890 Pro (Recommandé) : AMD Ryzen 9 8945HS, 32–64 Go DDR5. ~8 tok/s sur Qwen2.5 7B. Consommation : ~35 W en veille. Prix : environ 320–420 €.

Mac Mini M4 : Apple Silicon M4, 16–32 Go RAM unifiée, ~18 tok/s. Consommation : ~20 W. Prix : à partir de 599 €.

Meilleurs modèles pour le chat WeChat en chinois

Qwen2.5 7B Q4_K_M (Premier choix) : Développé par Alibaba avec tokenisation CJK native. 5,5 Go VRAM, 8–15 tok/s. Installation : ollama pull qwen2.5:7b.

Qwen2.5 14B Q4_K_M : Pour des conversations plus riches avec 12–16 Go de RAM disponible.

À éviter : Llama 3 et Mistral — tokeniseurs occidentaux, 2–3× plus de tokens pour le texte chinois.

Gestion des chats de groupe

Les chats de groupe WeChat nécessitent la gestion des mentions @. WeChatFerry expose msg.is_at.

Bonne pratique : répondre uniquement quand msg.is_at est True ou lors d'un mot déclencheur. Maintenir des historiques séparés par utilisateur (msg.sender).

Confidentialité & conformité RGPD

L'inférence locale signifie que les prompts, réponses et historiques ne quittent jamais votre matériel.

RGPD Art. 28 : Les LLM locaux évitent le besoin d'un accord de traitement des données avec un fournisseur LLM.

Ce que cela ne couvre PAS : Les métadonnées des messages WeChat restent sur les serveurs Tencent.

Questions fréquentes

WeChatFerry fonctionne-t-il avec WeChat pour Mac ?

Non. WeChatFerry ne supporte que le client WeChat PC sur Windows.

Tencent peut-il bannir mon compte pour l'utilisation d'un bot ?

Les bots personnels avec des taux de réponse humains (1–5 messages/min) déclenchent rarement des bannissements.

Quel modèle Ollama pour le chinois ?

Qwen2.5 7B Q4_K_M — tokenisation CJK native, 30–40% plus efficace que Llama ou Mistral.

Puis-je utiliser un laptop ?

Oui. 16 Go RAM suffit pour Qwen2.5 7B en mode CPU-only, 8–15 tok/s.

Conformité RGPD avec un LLM local ?

Les LLM locaux évitent les accords DPA avec les fournisseurs cloud. Les métadonnées WeChat restent chez Tencent.

Comment gérer les conversations multi-tours ?

Maintenir l'historique comme liste de dicts {role, content} par expéditeur, transmettre les 10–15 derniers messages à /api/chat.

← Retour à Power Local LLM

Intégration WeChat LLM local 2026 | Pont API Ollama