关键要点
- WeChatFerry(Windows)是2026年最稳定的微信PC客户端钩子——无需修改微信二进制文件
- Ollama在11434端口提供本地HTTP API——10行Python即可实现消息路由
- Qwen2.5 7B Q4_K_M:中文聊天首选——5.5 GB显存,原生中文分词,8–15 tok/s
- 铭凡UM890 Pro迷你主机(~35 W):24/7群聊和私聊全覆盖
- 符合《数据安全法》第31条:本地推理,推理内容数据不出设备
微信 + LLM三种集成方案
方案一——WeChatFerry + Ollama(Windows): 最稳定。WeChatFerry钩入微信PC客户端并提供Python SDK。支持私聊和群聊。需要安装了微信PC的Windows系统。
方案二——HTTP Webhook桥接: 跨平台,但配置较复杂。适合已有微信公众号基础设施的企业。
方案三——Ollama + Open WebUI通知转发: 最简单的单向通知选项,无需任何钩子。
对大多数用户——尤其是中国个人账户用户——2026年推荐方案一(WeChatFerry + Ollama)。
WeChatFerry配置:分步指南
- 1在Windows上安装微信PC(从weixin.qq.com下载官方版本)
- 2安装WeChatFerry:
pip install wcferry(Python 3.10+) - 3启动WeChatFerry守护进程:
python -m wcferry.daemon - 4编写消息处理器:
from wcferry import Wcf; wcf = Wcf(); wcf.enable_receiving_msg() - 5在消息循环中调用Ollama:
requests.post("http://localhost:11434/api/generate", json={"model":"qwen2.5:7b","prompt":msg.content}) - 6发送回复:`wcf.send_text(response["response"], msg.roomid or msg.sender)`
- 7用私信测试;验证回复在2–5秒内出现在微信中
import requests
from wcferry import Wcf
wcf = Wcf()
wcf.enable_receiving_msg()
while True:
msg = wcf.get_msg()
if msg and msg.from_self() is False:
resp = requests.post(
"http://localhost:11434/api/generate",
json={"model": "qwen2.5:7b", "prompt": msg.content, "stream": False}
).json()
wcf.send_text(resp["response"], msg.roomid or msg.sender)Ollama HTTP API:核心接口
Ollama运行ollama serve后在http://localhost:11434提供本地REST服务。本地连接无需认证。
生成(单轮): POST /api/generate — 请求体:{model, prompt, stream: false} — 返回{response, done}
对话(多轮): POST /api/chat — 请求体:`{model, messages: [{role, content}]}` — 跨请求保持上下文
微信集成建议使用/api/chat并维护滚动对话历史(最近10–15条消息)。
迷你主机作为微信LLM常驻服务器
铭凡UM890 Pro(推荐): AMD Ryzen 9 8945HS,32–64 GB DDR5。Linux ROCm下Qwen2.5 7B约8 tok/s。功耗:~35 W待机。价格:约2500–3200元。
Mac Mini M4: Apple Silicon M4,16–32 GB统一内存,MLX下~18 tok/s。功耗:~20 W待机。价格:约4399元起。
自动启动: 将ollama serve和WeChatFerry桥接脚本添加到systemd(Linux)或Windows任务计划程序,断电后自动恢复。
微信中文聊天最佳模型
Qwen2.5 7B Q4_K_M(首选): 阿里巴巴开发,原生中文分词。5.5 GB显存,8–15 tok/s。能理解中文成语、口语和表达,远优于西方优先模型。安装:ollama pull qwen2.5:7b。
Qwen2.5 14B Q4_K_M: 适合拥有12–16 GB内存的设备,对话质量明显提升,多轮推理更强。
DeepSeek-R1-Distill-Qwen-7B: 中文问答和推理表现良好,日常对话略弱于Qwen2.5 7B。
避免使用: Llama 3和Mistral——西方优先分词器处理中文需要多2–3倍的token,导致速度慢且长消息截断。
群聊处理
微信群聊需要处理@提及。WeChatFerry提供msg.is_at字段检测是否被@。
最佳实践:仅在msg.is_at为True或消息以触发词开头时回复。响应所有群消息会触发微信的反机器人频率限制。
频率限制:微信可能限制每分钟超过约30条消息的账号。群聊中在机器人回复之间添加2–3秒延迟。
上下文管理:按用户(msg.sender为键)维护独立对话历史,避免参与者之间的上下文混淆。
隐私与《数据安全法》合规
本地推理意味着提示词、回复和对话历史永远不会离开您的硬件。无论是微信腾讯服务器还是任何LLM云端API都不会处理这些内容。
《数据安全法》(2021年)第31条: 要求在境内收集或使用的个人数据留存于中国司法管辖范围内。运行本地LLM确保推理不经过境外云服务提供商(OpenAI、Anthropic、Google等)。
《网络安全法》第37条: 关键信息基础设施运营者须在境内存储数据。本地推理满足个人和中小企业用例的这一要求。
注意事项: 微信消息元数据(谁与谁通信、时间戳)依据微信服务条款仍存储在腾讯服务器上——本地推理无法改变这一点。
CAC指引: 中国《互联网信息服务算法推荐管理规定》适用于向公众提供算法推荐服务,不适用于个人或内部使用的本地机器人。
常见问题
WeChatFerry支持Mac版微信吗?
不支持。WeChatFerry钩入Windows版微信PC客户端DLL,不支持Mac版微信。Mac用户可使用Windows虚拟机或HTTP Webhook方案。
使用机器人会被腾讯封号吗?
微信ToS禁止大规模自动发消息。个人机器人以接近人类的回复频率(每分钟1–5条)运行极少触发封号。避免批量发送消息或商业推广。
微信中文聊天最推荐哪个Ollama模型?
Qwen2.5 7B Q4_K_M。阿里巴巴开发的原生中文分词模型,处理中文比Llama或Mistral效率高30–40%。
可以在笔记本电脑上运行吗?
可以。16 GB内存的笔记本以纯CPU运行Qwen2.5 7B,速度约8–15 tok/s,每条消息响应延迟3–8秒,可接受用于聊天场景。
本地推理能满足《数据安全法》要求吗?
对于推理内容(提示词和回复),是的——数据不离开您的设备。微信消息元数据依据微信ToS仍存储在腾讯服务器上。
如何处理多轮对话?
将对话历史以sender为键存储为Python列表(每项为{role, content}字典),每次请求将最近10–15条消息传递给/api/chat。
相关阅读
- 微信机器人与本地LLM:个人助手指南 — WeChatFerry深度个人助手配置
- 本地LLM最佳迷你主机 — 常驻LLM服务器硬件对比
- 本地AI智能体与MCP 2026 — 为微信机器人添加工具调用能力
- 用本地AI智能体替代Zapier — 由微信事件触发的自动化工作流