Points clés
- Whisper est un modèle ouvert de reconnaissance vocale qui tourne localement — aucun audio ne quitte votre matériel
- Utilisez l'add-on Whisper (faster-whisper) ; il se relie à Assist via Wyoming
- Les tailles de modèle vont tiny → base → small → medium → large ; plus grand est plus précis, plus lent
- Sur du matériel CPU seul, préférez tiny/base/small ; un GPU rend medium/large pratique
- Whisper est multilingue, donc les commandes non anglaises se transcrivent sans service cloud
- Réglez la précision avec un meilleur micro et le bon modèle avant de passer à plus grand
Pourquoi utiliser la reconnaissance vocale locale ?
La reconnaissance vocale locale garde vos enregistrements vocaux sur votre propre matériel, donc aucun audio n'est téléversé vers un tiers. Elle fonctionne aussi hors ligne et n'a aucun coût par requête.
- Confidentialité : les assistants cloud transmettent et peuvent conserver les enregistrements ; Whisper local non — voir risques de confidentialité de la maison connectée.
- Hors ligne : la transcription fonctionne pendant les coupures internet.
- Sans frais : il n'y a aucun coût d'utilisation pour la transcription locale.
Quelle taille de modèle Whisper choisir ?
Choisissez le plus petit modèle Whisper qui donne une précision acceptable sur votre matériel — tiny/base/small pour CPU seul, medium/large quand vous avez un GPU. Les plus grands modèles améliorent la précision sur les accents et l'audio bruyant au prix de la vitesse.
- Utilisez small par défaut sur un CPU de mini-PC ; passez à medium/large seulement si la précision manque.
- Utilisez tiny/base sur une Raspberry Pi pour garder une latence utilisable.
| Modèle | Précision relative | Vitesse relative | Idéal pour |
|---|---|---|---|
| tiny | La plus faible | La plus rapide | CPU basse consommation, commandes courtes |
| base | Faible | Très rapide | Raspberry Pi, phrases simples |
| small | Bonne | Rapide | CPU de mini-PC, usage quotidien |
| medium | Élevée | Modérée | GPU ou CPU puissant |
| large | La plus élevée | La plus lente | GPU, accents/pièces bruyantes |
Configuration Wyoming
L'add-on Whisper expose un point d'accès Wyoming que Assist utilise pour la reconnaissance vocale. La configuration est : installer → choisir le modèle → sélectionner dans le pipeline.
- 1Installez l'add-on Whisper (faster-whisper) depuis le magasin d'add-ons.
- 2Définissez la taille du modèle dans la configuration de l'add-on et démarrez-le.
- 3L'add-on s'enregistre automatiquement comme service de reconnaissance vocale Wyoming.
- 4Dans Paramètres → Assistants vocaux, définissez Whisper comme moteur STT pour votre pipeline Assist.
- 5Testez la transcription depuis les outils de débogage d'Assist avant d'ajouter du matériel vocal.
Besoins matériels
Whisper tourne sur CPU pour les petits modèles et profite d'un GPU pour les modèles medium/large. Adaptez la taille du modèle à la machine qui l'héberge.
- Raspberry Pi : restez sur tiny/base pour une latence acceptable.
- Mini-PC (CPU) : small fonctionne bien ; medium est possible mais plus lent — voir meilleur matériel pour une maison connectée locale.
- Avec un GPU/NPU : medium et large deviennent pratiques pour une haute précision.
- Vous pouvez exécuter Whisper sur une machine séparée plus puissante via Wyoming si votre hub est une Pi.
Régler la précision
Améliorez un bon micro et le bon modèle avant de recourir au plus gros Whisper. La qualité audio compte souvent plus que la taille du modèle pour les commandes domestiques.
- Utilisez un micro de qualité ou du matériel de satellite vocal près du locuteur.
- Réduisez le bruit de fond là où se trouve le micro.
- Définissez la bonne langue dans l'add-on pour éviter les mauvaises transcriptions.
- Montez d'une taille de modèle à la fois et retestez plutôt que de sauter à large.
FAQ
Quel modèle Whisper utiliser pour Home Assistant ?
Utilisez small par défaut sur un CPU de mini-PC, tiny ou base sur une Raspberry Pi, et medium ou large seulement si vous avez un GPU et avez besoin d'une meilleure précision sur les accents ou les pièces bruyantes. Montez d'une taille à la fois et retestez.
Ai-je besoin d'un GPU pour Whisper local ?
Non pour small et en dessous — ceux-ci tournent sur CPU. Un GPU rend surtout les modèles medium et large assez rapides pour un usage en temps réel. Vous pouvez aussi déporter Whisper sur une machine plus puissante via le protocole Wyoming.
Quelle est la précision de Whisper local hors ligne ?
La précision est forte avec le bon modèle et un bon micro ; les plus grands modèles gèrent mieux les accents et le bruit. Pour des commandes domestiques claires, le modèle small sur un mini-PC est généralement assez précis, et il tourne entièrement hors ligne.
Whisper local est-il multilingue ?
Oui. Whisper prend en charge de nombreuses langues, donc les commandes non anglaises se transcrivent localement sans aucun service cloud. Définissez la langue dans la configuration de l'add-on pour de meilleurs résultats.