Points clés
- Piper est le meilleur choix pour la vitesse et les applications embarquées. Il s'exécute entièrement sur CPU, produit la parole en temps réel sur un Raspberry Pi 5 et supporte 20+ langues via des packs de voix téléchargeables. Pas de GPU, pas de complexité Python, licence MIT.
- XTTS v2 produit la meilleure qualité de clonage vocal local en 2026. Donnez-lui 6 secondes d'audio de référence et il clone la voix dans 17 langues. Nécessite 4–6 GB de VRAM GPU. La licence CPML restreint l'utilisation commerciale.
- F5-TTS est l'alternative en pleine croissance pour le clonage vocal zéro-shot. Il utilise une architecture de flux-matching au lieu de GPT, clone une voix à partir de ~3 secondes d'audio de référence et atteint une qualité comparable à XTTS v2 avec une inférence plus rapide. Licence : CC-BY-NC-4.0.
- Coqui TTS est le toolkit TTS open-source le plus flexible. Il supporte plusieurs backends (Tacotron2, VITS, XTTS), le clonage vocal et 20+ langues sous licence MIT 2.0. Remarque : L'entreprise Coqui a fermé en 2023; le projet est maintenant maintenu par la communauté.
- Bark est le seul TTS local qui génère de l'audio non-vocal. Il peut produire du rire, de la toux, des soupirs, des extraits musicaux et des bruits ambiants aux côtés de la parole — utile pour l'audio créatif, la production de podcasts et la fiction interactive.
- StyleTTS 2 atteint les scores MOS (Mean Opinion Score) les plus élevés de tous les moteurs TTS anglais open-source. Son transfert de style basé sur la diffusion produit une naturalité quasi-humaine pour la narration en anglais. Supports l'anglais uniquement et n'a pas de clonage vocal.
- La licence est critique pour l'utilisation commerciale. Piper (MIT), Bark (MIT), StyleTTS 2 (MIT): entièrement commercial. Coqui (MPL 2.0): utilisation commerciale autorisée avec conditions de divulgation. XTTS v2 (CPML): utilisation commerciale nécessite un accord de licence. F5-TTS (CC-BY-NC-4.0): utilisation commerciale interdite sans accord séparé.
- Aucun ne correspond à la qualité TTS commerciale à grande échelle. ElevenLabs, Google Text-to-Speech et Azure TTS surpassent toujours les moteurs locaux en cohérence, naturalité et latence. Le TTS local est le bon choix quand la confidentialité, le coût ou l'opération hors ligne importent plus que la qualité absolue.
Points clés
- TTS local le plus rapide : Piper — temps réel sur Raspberry Pi 5, ~10× plus rapide que le temps réel sur CPU de bureau moderne.
- Meilleure qualité de clonage vocal : XTTS v2 — 6 secondes d'audio de référence, clonage multilingue en 17 langues.
- Clonage vocal zéro-shot le plus rapide (nouvelle architecture) : F5-TTS — ~3 secondes d'audio, flow-matching, ~3–5× temps réel sur RTX 4070.
- Toolkit open-source le plus flexible : Coqui TTS — supporte les backends VITS, Tacotron2, XTTS, 20+ modèles de langues.
- Seul audio génératif (sons non vocaux) : Bark — rires, soupirs, musique, ambiance. Le plus lent de tous.
- Meilleure qualité de narration anglaise : StyleTTS 2 — transfert de style basé sur la diffusion, MOS quasi-humain sur le benchmark LJSpeech.
- Exigences VRAM : Piper : CPU uniquement. Kokoro : CPU / 1–2 Go. StyleTTS 2 : 2–4 Go. Coqui VITS : 2–4 Go. F5-TTS : 3–5 Go. XTTS v2 : 4–6 Go. Bark : 4–8 Go.
Pourquoi le TTS local est important
Les services TTS cloud (ElevenLabs, Google TTS, Amazon Polly, Azure Speech) sont pratiques, mais ils impliquent une facturation par caractère, des politiques de rétention des données audio et une latence due aux allers-retours réseau. Le TTS local élimine ces trois inconvénients.
- Confidentialité : Votre contenu textuel ne quitte jamais votre machine. Essentiel pour la dictée médicale, les résumés juridiques, la narration de journaux privés ou la lecture à voix haute de documents confidentiels.
- Coût : Le TTS cloud est typiquement facturé 4–30 € par million de caractères. Un développeur générant 10 millions de caractères par mois économise 40–300 €/mois avec une configuration locale unique.
- Latence : Pas d'aller-retour réseau. Piper génère le premier token audio en moins de 50 ms sur CPU — plus rapide que tout aller-retour TTS cloud.
- Personnalisation : Le clonage vocal (XTTS v2, F5-TTS, Coqui) permet de créer une voix personnalisée à partir de quelques secondes d'audio. Les fournisseurs cloud facturent 10 €+/mois par voix clonée.
- Fonctionnement hors ligne : Fonctionne dans les avions, dans les installations sécurisées, dans les zones éloignées sans internet. Interface vocale embarquée pour bornes et appareils.
Tableau de comparaison
Tous les moteurs TTS locaux comparés selon les métriques les plus importantes pour le déploiement en production.
📍 En une phrase
Piper est le plus rapide sur CPU ; XTTS v2 offre la meilleure qualité de clonage vocal ; F5-TTS fournit un clonage zéro-shot avec une architecture plus récente ; Bark est le seul moteur produisant des rires et de la musique ; StyleTTS 2 a la meilleure naturalité de narration anglaise.
💬 En termes simples
Pour la plupart des besoins TTS hors ligne : Piper pour la vitesse et la simplicité, Coqui pour le clonage vocal avec une licence permissive, XTTS v2 pour la meilleure qualité de clonage avec GPU, F5-TTS pour une architecture plus récente avec un clonage zéro-shot plus rapide.
| Outil | Qualité | Vitesse | Clonage vocal | Multilingue | VRAM | Licence | MOS (anglais) |
|---|---|---|---|---|---|---|---|
| Piper | Bon | Très rapide (CPU) | Non | Oui (20+ langues) | CPU uniquement | MIT | ~3,5 |
| Kokoro | Très bon | Rapide (CPU) | Non | Anglais + en expansion | CPU / 1–2 Go | Apache 2.0 | ~4,0 |
| Coqui TTS | Très bon | Moyen | Oui | Oui (20+ langues) | 2–4 Go | MPL 2.0 | ~3,8 |
| XTTS v2 | Excellent | Lent | Oui (meilleur) | Oui (17 langues) | 4–6 Go | CPML (commercial restreint) | ~4,1 |
| F5-TTS | Excellent | Moyen-rapide | Oui (zéro-shot) | Oui (multilingue) | 3–5 Go | CC-BY-NC-4.0 | ~4,1 |
| Bark | Unique / variable | Lent | Limité | Oui (multilingue) | 4–8 Go | MIT | ~3,2–4,0 (variable) |
| StyleTTS 2 | Excellent (anglais) | Moyen | Non | Anglais principalement | 2–4 Go | MIT | ~4,3 |
MOS (Mean Opinion Score) sur une échelle de 1 à 5 où 5 est indiscernable de la parole humaine. Les scores sont approximatifs et basés sur des benchmarks publiés ou des évaluations communautaires. Le MOS varie significativement selon la phrase de test et le groupe d'auditeurs. MOS de référence humaine : ~4,5.
Comparaison de latence du premier audio
La latence du premier audio est le temps entre l'entrée du texte et la première sortie audible. Critique pour les assistants vocaux et les applications interactives. Pour le traitement par lots (livres audio, production de podcasts), le débit total est plus important que la latence du premier audio.
| Moteur | Premier audio (RTX 4070) | Premier audio (CPU) | Premier audio (M5 Pro) |
|---|---|---|---|
| Piper | ~30 ms | ~50 ms | ~40 ms |
| Kokoro | ~50 ms | ~80 ms | ~60 ms |
| Coqui VITS | ~100 ms | ~300 ms | ~150 ms |
| StyleTTS 2 | ~150 ms | ~500 ms | ~200 ms |
| F5-TTS | ~200 ms | ~800 ms | ~300 ms |
| XTTS v2 | ~300 ms | ~1500 ms | ~500 ms |
| Bark | ~500 ms | ~3000 ms | ~800 ms |
Piper TTS — Option légère la plus rapide
Piper est un système de synthèse vocale locale rapide développé par Rhasspy pour la domotique et les usages embarqués. Il utilise une architecture neuronale basée sur VITS entraînée sur des ensembles de données vocales avec un backend onnxruntime — optimisé pour fonctionner en temps réel sur un Raspberry Pi 4 ou 5 sans GPU.
- Architecture : TTS neuronal VITS avec inférence ONNX. Conçu pour les ordinateurs monocarte et Linux embarqué.
- Installation :
pip install piper-tts. Des packs de voix pré-entraînés sont disponibles dans le dépôt Piper voices sur Hugging Face. - Utilisation :
echo "Bonjour, monde" | piper --model fr_FR-upmc-medium.onnx --output_file sortie.wav - Packs de voix : 20+ langues, plusieurs options de voix par langue. Chaque pack de voix est un fichier modèle ONNX de 20–200 Mo.
- Vitesse : ~10× plus rapide que le temps réel sur un CPU de bureau moderne. Temps réel sur Raspberry Pi 5. Latence du premier audio inférieure à 50 ms.
- Apple Silicon : ~15× temps réel sur M5 Pro (CPU, ARM NEON). Fonctionne nativement sans GPU — excellente performance sur Mac.
- Écouter des exemples : Échantillons vocaux Piper
- Idéal pour : Assistants domestiques, bornes interactives, interface vocale embarquée, lecture à voix haute sensible à la confidentialité sans GPU disponible.
- Limitation : Pas de clonage vocal. La qualité est « bonne » — naturelle mais clairement synthétique par rapport à XTTS v2 ou StyleTTS 2.
- Licence : MIT — entièrement commercial, aucune restriction.
- Kokoro TTS — alternative à Piper : Kokoro TTS est une alternative émergente à Piper dans la catégorie légère. Il atteint une plus grande naturalité que Piper tout en restant rapide sur CPU. Licencié sous Apache 2.0. Si la qualité de Piper ne répond pas à vos besoins mais que vous ne pouvez pas vous permettre la VRAM GPU, Kokoro vaut la peine d'être testé.
Coqui TTS — Meilleur toolkit open-source polyvalent
Coqui TTS est un toolkit Python pour la synthèse vocale supportant plusieurs architectures de modèles et le clonage vocal. Il a été développé par la société Coqui (qui a fermé fin 2023) et est maintenant maintenu par la communauté open-source. Le toolkit supporte les backends Tacotron2, VITS et XTTS.
- Installation :
pip install TTS. Les modèles se téléchargent automatiquement à la première utilisation. - Clonage vocal : Fournissez 6+ secondes d'audio de référence.
tts --text "Bonjour" --model_name tts_models/fr/css10/vits --speaker_wav exemple.wav --out_path sortie.wav - Options de backend : VITS (le plus rapide, bonne qualité), Tacotron2 (plus ancien, plus lent), XTTS (meilleure qualité, voir section XTTS v2).
- Langues : 20+ modèles de langues disponibles via
tts --list_models. - VRAM : 2–4 Go pour le backend VITS ; 4–6 Go pour le backend XTTS.
- Apple Silicon : ~8× temps réel sur M5 Pro (CPU). Pas d'accélération Metal GPU. Utilisable pour la génération par lots.
- Statut communautaire : Coqui Inc a fermé fin 2023. Le dépôt open-source (
coqui-ai/TTS) est maintenu par la communauté. Pas de support commercial actif. - Licence : MPL 2.0 — utilisation commerciale autorisée, mais le code source des modifications doit être divulgué.
- Idéal pour : Les développeurs qui veulent le clonage vocal avec un toolkit open-source et une licence permissive.
XTTS v2 — Meilleure qualité de clonage vocal
XTTS v2 (par Coqui) est le moteur de clonage vocal de la plus haute qualité disponible localement en 2026. Il utilise une architecture basée sur GPT avec transfert multilingue — clonez une voix en anglais et parlez-la en espagnol, allemand, français ou 14 autres langues à partir des mêmes 6 secondes d'audio.
- Architecture : TTS basé sur GPT avec conditionnement de locuteur. Vision-transformer pour la modélisation de la prosodie.
- Clonage vocal : 6 secondes d'audio de référence suffisent pour un clone vocal convaincant. 3 secondes produisent une qualité passable.
- Clonage multilingue : Clonez la voix dans une langue, générez la parole dans 17 langues différentes avec les mêmes caractéristiques vocales.
- VRAM : 4–6 Go GPU recommandé. Fonctionne sur CPU mais ~5–10× plus lent.
- Vitesse : Lent — génère ~2× temps réel sur un RTX 4070. Pas adapté aux pipelines d'assistant vocal en temps réel.
- Apple Silicon : ~3× temps réel sur M5 Pro (CPU, pas d'accélération Metal). Utilisable pour la génération audio par lots, pas pour la sortie d'assistant vocal en temps réel.
- Licence : CPML (Coqui Public Model License). Gratuit pour la recherche et l'usage personnel. L'utilisation commerciale nécessite un accord de licence.
from TTS.api import TTS
# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
text="Bonjour, je suis votre assistant vocal.",
speaker_wav="reference_voice.wav", # 6+ seconds of the target speaker
language="fr", # Output in French using the cloned voice
file_path="output.wav"
)⚠️Warning: XTTS v2 est couvert par la licence CPML. L'utilisation commerciale — y compris dans des produits, applications SaaS ou services — nécessite un accord de licence commerciale. Vérifiez les conditions de licence avant de déployer.
Bark — Audio génératif au-delà de la parole
Bark (par Suno AI) est un modèle génératif texte-vers-audio qui produit de la parole, de la musique, des rires, des toussotements, des soupirs et des sons ambiants à partir de prompts textuels. Ce n'est pas un moteur TTS traditionnel — c'est un modèle génératif qui interprète les prompts textuels comme des instructions de génération audio.
- Capacité unique : Incluez `[laughs]
,[sighs],[clears throat],[music]ou[sound effect: wind]` dans votre texte et Bark génère ces sons aux côtés de la parole. - Pas contrôlable comme un TTS traditionnel : La sortie varie entre les exécutions pour la même entrée. La qualité est inconsistante — certaines sorties sont excellentes, d'autres ont des artefacts ou des segments incompréhensibles.
- Vitesse : Lent — 2–4× plus lent que le temps réel même sur un RTX 4090. Pas adapté aux applications interactives.
- Apple Silicon : ~1,5× temps réel sur M5 Pro (CPU, MPS partiel). Le support MPS (Metal Performance Shaders) est partiel — la plupart des inférences retombent toujours sur CPU.
- Idéal pour : Audio créatif, production de podcasts avec effets sonores, fiction interactive, applications vocales expérimentales.
- VRAM : 4–8 Go GPU. Fonctionne sur CPU avec une qualité significativement inférieure.
- Installation :
pip install suno-bark. Les modèles se téléchargent à la première exécution (~2 Go). - Licence : MIT — entièrement commercial.
- Limitation : Pas de clonage vocal fiable. Les « préréglages de voix » fournis avec Bark sont approximatifs — pas un vrai système de clonage vocal.
StyleTTS 2 — Qualité naturelle la plus élevée
StyleTTS 2 est un modèle TTS basé sur la diffusion qui atteint des scores MOS (Mean Opinion Score) quasi-humains sur le benchmark LJSpeech. Il transfère le style d'élocution par diffusion — générant une parole plus naturelle et expressive que les modèles basés sur VITS.
- Architecture : Transfert de style basé sur la diffusion. Échantillonnage à partir d'une distribution apprise de styles d'élocution plutôt que d'un mappage déterministe du texte vers l'audio.
- Qualité : Scores MOS les plus élevés de tout moteur TTS anglais open-source sur le benchmark LJSpeech.
- Idéal pour : Narration de livres audio, voix professionnelle, production de podcasts.
- Installation : Clonez le dépôt GitHub, installez les prérequis (
pip install -r requirements.txt), téléchargez les points de contrôle du modèle (~500 Mo). - Support linguistique : Principalement l'anglais. Non recommandé pour une utilisation non-anglophone.
- Clonage vocal : Non supporté. StyleTTS 2 génère uniquement dans des voix de locuteurs entraînées.
- VRAM : 2–4 Go GPU. Plus rapide que XTTS v2 à ~5–8× temps réel sur RTX 4070.
- Apple Silicon : ~6× temps réel sur M5 Pro (CPU). Pas d'accélération Metal.
- Licence : MIT — entièrement commercial.
F5-TTS — Clonage vocal zéro-shot, entièrement ouvert
F5-TTS est un modèle TTS basé sur le flow-matching avec clonage vocal zéro-shot — clonez n'importe quelle voix à partir de ~3 secondes d'audio de référence sans fine-tuning.
- Architecture : Flow-matching (une approche variante de la diffusion) plutôt que l'architecture GPT utilisée par XTTS v2. Inférence typiquement plus rapide avec une qualité compétitive.
- Clonage vocal : ~3 secondes d'audio de référence suffisent. Pas de fine-tuning requis.
- Qualité : Compétitive avec XTTS v2 en anglais. Scores MOS ~4,1 dans les évaluations communautaires.
- Vitesse : ~3–5× temps réel sur RTX 4070 — plus rapide que XTTS v2.
- Langues : Fort support pour l'anglais et le chinois, avec un support en expansion pour d'autres langues.
- Apple Silicon : ~2× temps réel sur M5 Pro (CPU). Pas d'accélération Metal actuellement.
- VRAM : 3–5 Go GPU recommandé.
- Installation :
pip install f5-ttsou cloner depuis GitHub. - Licence : CC-BY-NC-4.0 — usage non-commercial uniquement. L'utilisation commerciale nécessite un accord séparé.
Détail des licences — Important pour l'usage commercial
Les conditions de licence sont essentielles pour le déploiement en production.
| Outil | Licence | Commercial autorisé? | Condition principale |
|---|---|---|---|
| Piper | MIT | Oui — aucune restriction | Inclure la notice de copyright MIT |
| Kokoro | Apache 2.0 | Oui — aucune restriction | Inclure la notice Apache 2.0 |
| Coqui TTS | MPL 2.0 | Oui — avec conditions | Le code source des modifications doit être divulgué |
| XTTS v2 | CPML | Recherche / personnel uniquement | L'usage commercial nécessite un accord de licence |
| F5-TTS | CC-BY-NC-4.0 | Non-commercial uniquement | Usage commercial interdit sans accord séparé |
| Bark | MIT | Oui — aucune restriction | Inclure la notice de copyright MIT |
| StyleTTS 2 | MIT | Oui — aucune restriction | Inclure la notice de copyright MIT |
📌Note: Coqui TTS (le toolkit, MPL 2.0) et XTTS v2 (le modèle spécifique, CPML) ont des licences différentes. Vous pouvez utiliser le toolkit Coqui TTS avec les backends VITS ou Tacotron2 sous MPL 2.0 dans des produits commerciaux. La restriction CPML s'applique spécifiquement aux poids du modèle XTTS v2.
Comment le TTS local se compare à ElevenLabs et au TTS cloud
ElevenLabs, Google Text-to-Speech et Azure Speech restent le plafond de qualité pour le TTS en 2026.
- Plafond de qualité : ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper.
- Latence : Piper local (~30–50 ms premier audio) est plus rapide que tout aller-retour API ElevenLabs (~300–500 ms).
- Coût : ElevenLabs facture 5–99 €/mois par palier. Le TTS local coûte 0 € après l'achat matériel unique.
- Clonage vocal : ElevenLabs Instant Voice Clone ≈ qualité XTTS v2. ElevenLabs Professional Voice Clone dépasse tout moteur local.
- Confidentialité : TTS local = aucune donnée audio envoyée nulle part. ElevenLabs = audio traité sur leurs serveurs.
- Capacité hors ligne : Local = entièrement hors ligne. ElevenLabs = nécessite internet.
- Quand utiliser le cloud : Production de voix professionnelle, produits orientés clients nécessitant la plus haute qualité.
- Quand utiliser le local : Audio sensible à la confidentialité, appareils embarqués, traitement par lots sensible aux coûts, environnements hors ligne.
Comment choisir
Un organigramme de décision de votre besoin vers le bon moteur TTS :
📍 En une phrase
Besoin de clonage vocal ? → XTTS v2 (meilleure qualité) ou F5-TTS (plus rapide, nouvelle architecture) ou Coqui TTS (licence ouverte). Besoin de vitesse CPU ? → Piper. Besoin d'audio créatif ? → Bark. Besoin de la meilleure qualité anglaise ? → StyleTTS 2.
💬 En termes simples
Clonage vocal : XTTS v2 pour la qualité, F5-TTS pour la vitesse, Coqui VITS pour la licence permissive. CPU/Raspberry Pi : Piper uniquement. Effets sonores podcast : Bark. Livres audio en anglais : StyleTTS 2.
- Besoin de clonage vocal ? → XTTS v2 (meilleure qualité, CPML) ou F5-TTS (nouvelle architecture, plus rapide, CC-BY-NC-4.0) ou Coqui VITS (bonne qualité, MPL 2.0). Pas de clonage : Piper (vitesse) ou StyleTTS 2 (qualité).
- CPU uniquement / Raspberry Pi ? → Piper uniquement. Kokoro est une alternative CPU de meilleure qualité (Apache 2.0). Tous les autres moteurs nécessitent un GPU.
- Besoin d'audio créatif avec des sons non vocaux ? → Bark. Aucun autre moteur local ne produit nativement des rires, soupirs ou musique.
- Besoin de la meilleure qualité de narration anglaise ? → StyleTTS 2.
- Besoin de support multilingue ? → XTTS v2 (17 langues), Coqui (20+), Piper (20+ packs).
- Besoin d'une licence MIT entièrement commerciale ? → Piper, Bark ou StyleTTS 2.
- Construction d'un pipeline d'assistant vocal ? → Piper pour une sortie TTS à faible latence.
Questions fréquemment posées
Combien d'audio de référence me faut-il pour le clonage vocal avec XTTS v2?
XTTS v2 nécessite un minimum de 3 secondes d'audio de référence propre, 6+ secondes donnant des résultats nettement meilleurs. L'audio doit être un seul locuteur avec un bruit de fond minimal et sans musique. Un matériel source de meilleure qualité produit de meilleurs clones que l'audio compressé.
Puis-je utiliser Piper TTS dans un produit commercial?
Oui. Piper est licencié sous MIT, qui permet l'utilisation commerciale illimitée. Vous devez inclure la notice de licence MIT dans votre produit. Les modèles de voix (fichiers ONNX) peuvent avoir des licences séparées par voix.
Quel moteur TTS local a le meilleur support multilingue?
XTTS v2 supporte 17 langues avec clonage vocal multilingue — la fonctionnalité multilingue la plus impressionnante de tous les moteurs locaux. Coqui TTS a 20+ modèles de langues mais sans clonage multilingue. Piper a 20+ packs de voix pour l'inférence CPU rapide.
Quel moteur TTS local sonne le plus humain?
StyleTTS 2 pour la narration en anglais — il atteint les scores MOS les plus élevés de tous les moteurs TTS anglais open-source (~4,3 vs référence humaine ~4,5). XTTS v2 et F5-TTS sont compétitifs (~4,1) pour la naturalité de voix clonée.
Sources
- Piper TTS sur GitHub — Code source, packs de voix, téléchargements de modèles ONNX et guide Raspberry Pi.
- Coqui TTS sur GitHub — Code source, liste de modèles, documentation sur le clonage vocal et référence de l'API Python.
- Documentation XTTS v2 — Fiche de modèle XTTS v2, licence (CPML) et API de clonage vocal.
- F5-TTS sur GitHub — TTS flow-matching avec clonage vocal zéro-shot, guide d'installation et support multilingue.