Skip to main content
PromptQuorumPromptQuorum
Accueil/LLM locaux avancés/Licences TTS local et clonage vocal 2026 : quels moteurs autorisent l'usage commercial (Piper, XTTS v2, F5-TTS, Coqui)
Voice, Speech & Multimodal

Licences TTS local et clonage vocal 2026 : quels moteurs autorisent l'usage commercial (Piper, XTTS v2, F5-TTS, Coqui)

·14 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Peut-on utiliser un moteur de synthèse vocale locale dans un produit commercial ? Tout dépend de la licence, et les licences diffèrent fortement. Piper, Bark et StyleTTS 2 sont publiés sous MIT, Kokoro et Tortoise sous Apache 2.0 — les quatre sont libres pour l'usage commercial. Le toolkit Coqui TTS est sous MPL 2.0 (commercial sous conditions). Mais les deux modèles de clonage vocal les plus populaires sont restreints : XTTS v2 utilise la Coqui Public Model License (CPML, non commerciale) et F5-TTS utilise CC-BY-NC-4.0 (non commerciale). Ce guide donne la licence exacte de chaque moteur, une réponse claire « puis-je l'utiliser commercialement ? » par moteur, la variable d'environnement COQUI_TOS_AGREED pour accepter la CPML de manière non interactive dans Docker et CI, et une comparaison directe sur la qualité, la vitesse, la VRAM et le clonage vocal — afin de choisir le bon moteur sans envoyer d'audio dans le cloud et sans mauvaise surprise de licence en production. (Licences vérifiées en juin 2026 ; ceci est une référence factuelle, pas un conseil juridique — lisez chaque licence vous-même avant tout usage commercial.)

Points clés

  • Piper est le meilleur choix pour la vitesse et les applications embarquées. Il s'exécute entièrement sur CPU, produit la parole en temps réel sur un Raspberry Pi 5 et supporte 20+ langues via des packs de voix téléchargeables. Pas de GPU, pas de complexité Python, licence MIT.
  • XTTS v2 est la meilleure option de clonage vocal local en 2026 — mais elle est non commerciale. Donnez-lui 6 secondes d'audio de référence et il clone la voix dans 17 langues (4–6 GB de VRAM GPU). La licence CPML est non commerciale, et depuis la fermeture de Coqui (janvier 2024) aucune licence commerciale n'est en vente — considérez XTTS v2 comme non commercial uniquement. Acceptez la CPML de manière non interactive dans Docker/CI avec COQUI_TOS_AGREED=1.
  • F5-TTS est l'alternative en pleine croissance pour le clonage vocal zéro-shot. Il utilise une architecture flow-matching au lieu de GPT, clone une voix à partir de ~3 secondes d'audio de référence et atteint une qualité comparable à XTTS v2 avec une inférence plus rapide. Licence : CC-BY-NC-4.0 (non commerciale).
  • Coqui TTS est le toolkit TTS open-source le plus flexible. Il supporte plusieurs backends (Tacotron2, VITS, XTTS), le clonage vocal et 20+ langues sous licence MPL 2.0. Remarque : l'entreprise Coqui a fermé en janvier 2024 ; le projet est maintenant maintenu par la communauté.
  • Bark est le seul TTS local qui génère de l'audio non-vocal. Il peut produire du rire, de la toux, des soupirs, des extraits musicaux et des bruits ambiants aux côtés de la parole — utile pour l'audio créatif, la production de podcasts et la fiction interactive. Ses sorties sont lentes et non déterministes.
  • StyleTTS 2 atteint les scores MOS (Mean Opinion Score) les plus élevés de tous les moteurs TTS anglais open-source. Son transfert de style basé sur la diffusion produit une naturalité quasi-humaine pour la narration en anglais. Anglais uniquement et sans clonage vocal.
  • La licence décide de l'usage commercial — et la répartition est nette. Libres pour les produits commerciaux : Piper, Bark, StyleTTS 2 (MIT) et Kokoro, Tortoise (Apache 2.0). Commercial sous conditions : toolkit Coqui TTS (MPL 2.0, divulguer les modifications du toolkit). Non commercial uniquement : XTTS v2 (CPML) et F5-TTS (CC-BY-NC-4.0) — les deux nécessitent un accord séparé. Pour le clonage vocal commercial, utilisez Tortoise (Apache 2.0) ou le toolkit Coqui sur un backend VITS (MPL 2.0). Référence factuelle, pas un conseil juridique.
  • Aucun ne correspond à la qualité TTS commerciale à grande échelle. ElevenLabs, Google Text-to-Speech et Azure TTS surpassent toujours les moteurs locaux en cohérence, naturalité et latence. Le TTS local est le bon choix quand la confidentialité, le coût ou l'opération hors ligne importent plus que la qualité absolue.

Points clés

  • TTS local le plus rapide : Piper — temps réel sur Raspberry Pi 5, ~10× plus rapide que le temps réel sur CPU de bureau moderne.
  • Meilleure qualité de clonage vocal : XTTS v2 — 6 secondes d'audio de référence, clonage multilingue en 17 langues.
  • Clonage vocal zéro-shot le plus rapide (nouvelle architecture) : F5-TTS — ~3 secondes d'audio, flow-matching, ~3–5× temps réel sur RTX 4070.
  • Toolkit open-source le plus flexible : Coqui TTS — supporte les backends VITS, Tacotron2, XTTS, 20+ modèles de langues.
  • Seul audio génératif (sons non vocaux) : Bark — rires, soupirs, musique, ambiance. Le plus lent de tous.
  • Meilleure qualité de narration anglaise : StyleTTS 2 — transfert de style basé sur la diffusion, MOS quasi-humain sur le benchmark LJSpeech.
  • Libres pour l'usage commercial : Piper, Bark, StyleTTS 2 (MIT) ; Kokoro, Tortoise (Apache 2.0) ; toolkit Coqui TTS (MPL 2.0, sous conditions). Non commercial : XTTS v2 (CPML), F5-TTS (CC-BY-NC-4.0).
  • Voix et langues XTTS v2 : pas de liste de voix fixe — vous fournissez un extrait de référence de 6 secondes et il clone cette voix. Des préréglages de locuteurs intégrés sont livrés avec le modèle, et il génère dans 17 langues : en, es, fr, de, it, pt, pl, tr, ru, nl, cs, ar, zh-cn, ja, hu, ko, hi.
  • VRAM XTTS v2 : ~2 Go de poids de modèle ; 4 Go minimum pour fonctionner, 4–6 Go recommandés pour une inférence en temps réel.
  • Accepter la CPML en CI/Docker : export COQUI_TOS_AGREED=1 — pas d'invite interactive nécessaire.
  • Exigences VRAM : Piper : CPU uniquement. Kokoro : CPU / 1–2 Go. StyleTTS 2 : 2–4 Go. Coqui VITS : 2–4 Go. F5-TTS : 3–5 Go. XTTS v2 : 4–6 Go. Bark : 4–8 Go. Tortoise : 4–8 Go.

Pourquoi le TTS local est important

Les services TTS cloud (ElevenLabs, Google TTS, Amazon Polly, Azure Speech) sont pratiques, mais ils impliquent une facturation par caractère, des politiques de rétention des données audio et une latence due aux allers-retours réseau. Le TTS local élimine ces trois inconvénients.

  • Confidentialité : Votre contenu textuel ne quitte jamais votre machine. Essentiel pour la dictée médicale, les résumés juridiques, la narration de journaux privés ou la lecture à voix haute de documents confidentiels.
  • Coût : Le TTS cloud est typiquement facturé 4–30 € par million de caractères. Un développeur générant 10 millions de caractères par mois économise 40–300 €/mois avec une configuration locale unique.
  • Latence : Pas d'aller-retour réseau. Piper génère le premier token audio en moins de 50 ms sur CPU — plus rapide que tout aller-retour TTS cloud.
  • Personnalisation : Le clonage vocal (XTTS v2, F5-TTS, Coqui) permet de créer une voix personnalisée à partir de quelques secondes d'audio. Les fournisseurs cloud facturent 10 €+/mois par voix clonée.
  • Fonctionnement hors ligne : Fonctionne dans les avions, dans les installations sécurisées, dans les zones éloignées sans internet. Interface vocale embarquée pour bornes et appareils.
  • Maison connectée : Piper est la couche TTS de référence pour les interfaces vocales locales toujours actives — temps réel sur Raspberry Pi, sans GPU. Pour un assistant vocal hors ligne intégré dans Home Assistant, voir assistant vocal local pour smart home →.

Tableau de comparaison

Tous les moteurs TTS locaux comparés selon les métriques les plus importantes pour le déploiement en production.

📍 En une phrase

Piper est le plus rapide sur CPU ; XTTS v2 offre la meilleure qualité de clonage vocal ; F5-TTS fournit un clonage zéro-shot avec une architecture plus récente ; Bark est le seul moteur produisant des rires et de la musique ; StyleTTS 2 a la meilleure naturalité de narration anglaise.

💬 En termes simples

Pour la plupart des besoins TTS hors ligne : Piper pour la vitesse et la simplicité, Coqui pour le clonage vocal avec une licence permissive, XTTS v2 pour la meilleure qualité de clonage avec GPU, F5-TTS pour une architecture plus récente avec un clonage zéro-shot plus rapide.

OutilQualitéVitesseClonage vocalMultilingueVRAMLicenceMOS (anglais)
PiperBonTrès rapide (CPU)NonOui (20+ langues)CPU uniquementMIT~3,5
KokoroTrès bonRapide (CPU)NonAnglais + en expansionCPU / 1–2 GoApache 2.0~4,0
Coqui TTSTrès bonMoyenOuiOui (20+ langues)2–4 GoMPL 2.0~3,8
XTTS v2ExcellentLentOui (meilleur)Oui (17 langues)4–6 GoCPML (non commercial)~4,1
F5-TTSExcellentMoyen-rapideOui (zéro-shot)Oui (multilingue)3–5 GoCC-BY-NC-4.0~4,1
BarkUnique / variableLentLimitéOui (multilingue)4–8 GoMIT~3,2–4,0 (variable)
StyleTTS 2Excellent (anglais)MoyenNonAnglais principalement2–4 GoMIT~4,3
TortoiseExcellentTrès lent (minutes/phrase)OuiAnglais principalement4–8 GoApache 2.0~4,2

MOS (Mean Opinion Score) sur une échelle de 1 à 5 où 5 est indiscernable de la parole humaine. Les scores sont approximatifs et basés sur des benchmarks publiés ou des évaluations communautaires. Le MOS varie significativement selon la phrase de test et le groupe d'auditeurs. MOS de référence humaine : ~4,5.

Comparaison de latence du premier audio

La latence du premier audio est le temps entre l'entrée du texte et la première sortie audible. Critique pour les assistants vocaux et les applications interactives. Pour le traitement par lots (livres audio, production de podcasts), le débit total est plus important que la latence du premier audio.

MoteurPremier audio (RTX 4070)Premier audio (CPU)Premier audio (M5 Pro)
Piper~30 ms~50 ms~40 ms
Kokoro~50 ms~80 ms~60 ms
Coqui VITS~100 ms~300 ms~150 ms
StyleTTS 2~150 ms~500 ms~200 ms
F5-TTS~200 ms~800 ms~300 ms
XTTS v2~300 ms~1500 ms~500 ms
Bark~500 ms~3000 ms~800 ms

Piper TTS — Option légère la plus rapide

Piper est un système de synthèse vocale locale rapide développé par Rhasspy pour la domotique et les usages embarqués. Il utilise une architecture neuronale basée sur VITS entraînée sur des ensembles de données vocales avec un backend onnxruntime — optimisé pour fonctionner en temps réel sur un Raspberry Pi 4 ou 5 sans GPU.

  • Architecture : TTS neuronal VITS avec inférence ONNX. Conçu pour les ordinateurs monocarte et Linux embarqué.
  • Installation : pip install piper-tts. Des packs de voix pré-entraînés sont disponibles dans le dépôt Piper voices sur Hugging Face.
  • Utilisation : echo "Bonjour, monde" | piper --model fr_FR-upmc-medium.onnx --output_file sortie.wav
  • Packs de voix : 20+ langues, plusieurs options de voix par langue. Chaque pack de voix est un fichier modèle ONNX de 20–200 Mo.
  • Vitesse : ~10× plus rapide que le temps réel sur un CPU de bureau moderne. Temps réel sur Raspberry Pi 5. Latence du premier audio inférieure à 50 ms.
  • Apple Silicon : ~15× temps réel sur M5 Pro (CPU, ARM NEON). Fonctionne nativement sans GPU — excellente performance sur Mac.
  • Écouter des exemples : Échantillons vocaux Piper
  • Idéal pour : Assistants domestiques, bornes interactives, interface vocale embarquée, lecture à voix haute sensible à la confidentialité sans GPU disponible.
  • Limitation : Pas de clonage vocal. La qualité est « bonne » — naturelle mais clairement synthétique par rapport à XTTS v2 ou StyleTTS 2.
  • Licence : MIT — entièrement commercial, aucune restriction.
  • Kokoro TTS — alternative à Piper : Kokoro TTS est une alternative émergente à Piper dans la catégorie légère. Il atteint une plus grande naturalité que Piper tout en restant rapide sur CPU. Licencié sous Apache 2.0. Si la qualité de Piper ne répond pas à vos besoins mais que vous ne pouvez pas vous permettre la VRAM GPU, Kokoro vaut la peine d'être testé.

Coqui TTS — Meilleur toolkit open-source polyvalent

Coqui TTS est un toolkit Python pour la synthèse vocale supportant plusieurs architectures de modèles et le clonage vocal. Il a été développé par la société Coqui (qui a fermé en janvier 2024) et est maintenant maintenu par la communauté open-source. Le toolkit supporte les backends Tacotron2, VITS et XTTS.

  • Installation : pip install TTS. Les modèles se téléchargent automatiquement à la première utilisation.
  • Clonage vocal : Fournissez 6+ secondes d'audio de référence. tts --text "Bonjour" --model_name tts_models/fr/css10/vits --speaker_wav exemple.wav --out_path sortie.wav
  • Options de backend : VITS (le plus rapide, bonne qualité), Tacotron2 (plus ancien, plus lent), XTTS (meilleure qualité, voir section XTTS v2).
  • Langues : 20+ modèles de langues disponibles via tts --list_models.
  • VRAM : 2–4 Go pour le backend VITS ; 4–6 Go pour le backend XTTS.
  • Apple Silicon : ~8× temps réel sur M5 Pro (CPU). Pas d'accélération Metal GPU. Utilisable pour la génération par lots.
  • Statut communautaire : Coqui Inc a fermé en janvier 2024. Le dépôt open-source (coqui-ai/TTS) est maintenu par la communauté. Pas de support commercial actif.
  • Licence : MPL 2.0 — utilisation commerciale autorisée, mais le code source des modifications doit être divulgué.
  • Idéal pour : Les développeurs qui veulent le clonage vocal avec un toolkit open-source et une licence permissive.

XTTS v2 — Meilleure qualité de clonage vocal

XTTS v2 (par Coqui) est le moteur de clonage vocal de la plus haute qualité disponible localement en 2026. Il utilise une architecture basée sur GPT avec transfert multilingue — clonez une voix en anglais et parlez-la en espagnol, allemand, français ou 14 autres langues à partir des mêmes 6 secondes d'audio.

  • Architecture : TTS basé sur GPT avec conditionnement de locuteur. Vision-transformer pour la modélisation de la prosodie.
  • Clonage vocal : 6 secondes d'audio de référence suffisent pour un clone vocal convaincant. 3 secondes produisent une qualité passable.
  • Clonage multilingue : Clonez la voix dans une langue, générez la parole dans 17 langues différentes avec les mêmes caractéristiques vocales.
  • Langues (17) : anglais, espagnol, français, allemand, italien, portugais, polonais, turc, russe, néerlandais, tchèque, arabe, chinois (zh-cn), japonais, hongrois, coréen et hindi. Le coréen et le hindi ont été ajoutés dans XTTS v2.0.3.
  • « Voix XTTS v2 » : il n'y a pas de catalogue fixe de voix nommées. XTTS v2 est un modèle de clonage — vous fournissez un extrait de référence de 6 secondes et il reproduit ce locuteur. Le dépôt livre quelques préréglages de locuteurs intégrés pour des tests rapides, mais le workflow prévu est de fournir votre propre speaker_wav.
  • VRAM : les poids du modèle font ~2 Go. 4 Go de VRAM est le minimum pratique ; 4–6 Go sont recommandés pour une inférence en temps réel. Fonctionne sur CPU mais ~5–10× plus lent.
  • Vitesse : Lent — génère ~2× temps réel sur un RTX 4070. Pas adapté aux pipelines d'assistant vocal en temps réel.
  • Apple Silicon : ~3× temps réel sur M5 Pro (CPU, pas d'accélération Metal). Utilisable pour la génération audio par lots, pas pour la sortie d'assistant vocal en temps réel.
  • Licence : CPML (Coqui Public Model License) — non commerciale. La CPML autorise l'usage personnel, de recherche et de loisir du modèle et de ses sorties audio, mais interdit l'usage commercial (tout produit payant, SaaS, contenu financé par la publicité ou travail client) sans accord commercial séparé. Coqui Inc a fermé en janvier 2024, donc aucune entité ne vend actuellement de licences commerciales XTTS v2 — en pratique, considérez XTTS v2 comme non commercial uniquement. Voir la section acceptation non interactive de la CPML pour la variable d'environnement COQUI_TOS_AGREED.
python
from TTS.api import TTS

# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
    text="Bonjour, je suis votre assistant vocal.",
    speaker_wav="reference_voice.wav",   # 6+ seconds of the target speaker
    language="fr",                        # Output in French using the cloned voice
    file_path="output.wav"
)

⚠️Warning: XTTS v2 est couvert par la licence CPML (non commerciale). L'usage commercial — produits, SaaS, services ou travail client payant — nécessite un accord commercial séparé, et depuis la fermeture de Coqui Inc en janvier 2024 aucun tel accord n'est actuellement disponible à l'achat. Si vous avez besoin de clonage vocal commercial, utilisez Tortoise (Apache 2.0) ou le toolkit Coqui TTS sur un backend VITS (MPL 2.0). Ceci est une référence factuelle, pas un conseil juridique — lisez la CPML vous-même avant de déployer.

Bark — Audio génératif au-delà de la parole

Bark (par Suno AI) est un modèle génératif texte-vers-audio qui produit de la parole, de la musique, des rires, des toussotements, des soupirs et des sons ambiants à partir de prompts textuels. Ce n'est pas un moteur TTS traditionnel — c'est un modèle génératif qui interprète les prompts textuels comme des instructions de génération audio.

  • Capacité unique : Incluez `[laughs], [sighs], [clears throat], [music] ou [sound effect: wind]` dans votre texte et Bark génère ces sons aux côtés de la parole.
  • Pas contrôlable comme un TTS traditionnel : La sortie varie entre les exécutions pour la même entrée. La qualité est inconsistante — certaines sorties sont excellentes, d'autres ont des artefacts ou des segments incompréhensibles.
  • Vitesse : Lent — 2–4× plus lent que le temps réel même sur un RTX 4090. Pas adapté aux applications interactives.
  • Apple Silicon : ~1,5× temps réel sur M5 Pro (CPU, MPS partiel). Le support MPS (Metal Performance Shaders) est partiel — la plupart des inférences retombent toujours sur CPU.
  • Idéal pour : Audio créatif, production de podcasts avec effets sonores, fiction interactive, applications vocales expérimentales.
  • VRAM : 4–8 Go GPU. Fonctionne sur CPU avec une qualité significativement inférieure.
  • Installation : pip install suno-bark. Les modèles se téléchargent à la première exécution (~2 Go).
  • Licence : MIT — entièrement commercial.
  • Limitation : Pas de clonage vocal fiable. Les « préréglages de voix » fournis avec Bark sont approximatifs — pas un vrai système de clonage vocal.

StyleTTS 2 — Qualité naturelle la plus élevée

StyleTTS 2 est un modèle TTS basé sur la diffusion qui atteint des scores MOS (Mean Opinion Score) quasi-humains sur le benchmark LJSpeech. Il transfère le style d'élocution par diffusion — générant une parole plus naturelle et expressive que les modèles basés sur VITS.

  • Architecture : Transfert de style basé sur la diffusion. Échantillonnage à partir d'une distribution apprise de styles d'élocution plutôt que d'un mappage déterministe du texte vers l'audio.
  • Qualité : Scores MOS les plus élevés de tout moteur TTS anglais open-source sur le benchmark LJSpeech.
  • Idéal pour : Narration de livres audio, voix professionnelle, production de podcasts.
  • Installation : Clonez le dépôt GitHub, installez les prérequis (pip install -r requirements.txt), téléchargez les points de contrôle du modèle (~500 Mo).
  • Support linguistique : Principalement l'anglais. Non recommandé pour une utilisation non-anglophone.
  • Clonage vocal : Non supporté. StyleTTS 2 génère uniquement dans des voix de locuteurs entraînées.
  • VRAM : 2–4 Go GPU. Plus rapide que XTTS v2 à ~5–8× temps réel sur RTX 4070.
  • Apple Silicon : ~6× temps réel sur M5 Pro (CPU). Pas d'accélération Metal.
  • Licence : MIT — entièrement commercial.

F5-TTS — Clonage vocal zéro-shot, entièrement ouvert

F5-TTS est un modèle TTS basé sur le flow-matching avec clonage vocal zéro-shot — clonez n'importe quelle voix à partir de ~3 secondes d'audio de référence sans fine-tuning.

  • Architecture : Flow-matching (une approche variante de la diffusion) plutôt que l'architecture GPT utilisée par XTTS v2. Inférence typiquement plus rapide avec une qualité compétitive.
  • Clonage vocal : ~3 secondes d'audio de référence suffisent. Pas de fine-tuning requis.
  • Qualité : Compétitive avec XTTS v2 en anglais. Scores MOS ~4,1 dans les évaluations communautaires.
  • Vitesse : ~3–5× temps réel sur RTX 4070 — plus rapide que XTTS v2.
  • Langues : Fort support pour l'anglais et le chinois, avec un support en expansion pour d'autres langues.
  • Apple Silicon : ~2× temps réel sur M5 Pro (CPU). Pas d'accélération Metal actuellement.
  • VRAM : 3–5 Go GPU recommandé.
  • Installation : pip install f5-tts ou cloner depuis GitHub.
  • Licence : CC-BY-NC-4.0 — usage non-commercial uniquement. L'utilisation commerciale nécessite un accord séparé.

Licences et usage commercial — puis-je utiliser ce moteur TTS commercialement ?

La licence est le facteur le plus important pour l'usage en production, et elle répartit nettement ces moteurs en deux groupes. Les moteurs sous licence permissive (MIT, Apache 2.0) sont libres d'être intégrés dans un produit commercial. Les moteurs restreints (CPML, CC-BY-NC-4.0) sont non commerciaux — les utiliser dans un produit payant, un SaaS, du contenu financé par la publicité ou du travail client nécessite un accord séparé. Le tableau ci-dessous donne la licence exacte et une réponse directe « puis-je l'utiliser commercialement ? » pour chaque moteur.

📍 En une phrase

Pour un TTS local dans un produit commercial, Piper, Bark et StyleTTS 2 (MIT), Kokoro et Tortoise (Apache 2.0), et le toolkit Coqui TTS sur un backend VITS/Tacotron2 (MPL 2.0) sont tous autorisés ; XTTS v2 (CPML) et F5-TTS (CC-BY-NC-4.0) sont non commerciaux.

💬 En termes simples

Les deux modèles de clonage vocal les plus populaires — XTTS v2 et F5-TTS — ne peuvent pas être utilisés commercialement sans licence séparée. Pour le clonage vocal commercial, Tortoise (Apache 2.0) ou le toolkit Coqui sur un backend VITS (MPL 2.0) sont les choix sûrs.

OutilLicenceCommercial autorisé?Condition principale
PiperMITOui — aucune restrictionInclure la notice MIT ; vérifier la licence du modèle par voix
KokoroApache 2.0Oui — aucune restrictionInclure la notice Apache 2.0
Coqui TTS (toolkit)MPL 2.0Oui — avec conditionsDivulguer la source de toute modification des fichiers du toolkit
XTTS v2 (modèle)CPMLNon — non commercialLe commercial nécessite un accord ; aucun en vente depuis la fermeture de Coqui (janvier 2024)
F5-TTSCC-BY-NC-4.0Non — non commercialLe NC se reporte même aux fine-tunes (données d'entraînement Emilia)
BarkMITOui — aucune restrictionInclure la notice de copyright MIT
StyleTTS 2MITOui — aucune restrictionInclure la notice de copyright MIT
TortoiseApache 2.0Oui — aucune restrictionAttribution ; obtenir le consentement pour toute voix clonée

📌Note: Coqui TTS (le toolkit, MPL 2.0) et XTTS v2 (les poids de modèle spécifiques, CPML) ont des licences différentes. Vous pouvez intégrer le toolkit Coqui TTS avec les backends VITS ou Tacotron2 dans un produit commercial sous MPL 2.0. La restriction non commerciale CPML s'applique spécifiquement aux poids du modèle XTTS v2 et à leurs sorties audio — pas au code du toolkit.

⚠️Warning: Ceci est une référence factuelle, pas un conseil juridique. Les licences changent et les cas limites (consentement vocal, conditions des jeux de données, licences de modèle par voix) comptent. Lisez vous-même le fichier de licence de chaque moteur, et consultez un juriste, avant de vous appuyer sur ces conditions pour un déploiement commercial.

Accepter la CPML de manière non interactive (COQUI_TOS_AGREED)

La première fois que vous chargez un modèle XTTS / Coqui couvert par la CPML, la bibliothèque affiche les conditions de licence et attend que vous tapiez « y » pour accepter. Cette invite interactive bloque les builds Docker, les pipelines CI et les serveurs sans interface. Pour accepter la CPML de manière non interactive, définissez la variable d'environnement COQUI_TOS_AGREED à 1 — cela enregistre que vous avez lu et accepté la Coqui Public Model License avant le chargement du modèle. Cela ne change pas la licence : la CPML reste non commerciale, et définir la variable constitue votre accord à ces conditions, pas une renonciation à celles-ci.

📍 En une phrase

Définissez la variable d'environnement COQUI_TOS_AGREED=1 pour accepter la Coqui Public Model License (CPML) sans l'invite interactive dans Docker, CI ou tout environnement sans interface.

💬 En termes simples

Dans un shell ou un Dockerfile, utilisez export COQUI_TOS_AGREED=1 ; en Python, définissez `os.environ["COQUI_TOS_AGREED"] = "1"` avant d'importer ou de charger le modèle. Dans les deux cas, le modèle se charge sans attendre de saisie clavier.

  • Shell / CI : export COQUI_TOS_AGREED=1 avant d'exécuter votre script.
  • Docker : ajoutez ENV COQUI_TOS_AGREED=1 à votre Dockerfile, ou passez -e COQUI_TOS_AGREED=1 à docker run.
  • Python (à définir avant le chargement du modèle) : `import os; os.environ["COQUI_TOS_AGREED"] = "1" — doit s'exécuter avant que TTS(...)` n'instancie le modèle XTTS.
  • Ce que cela fait : enregistre l'acceptation non interactive de la CPML afin que le chargement du modèle ne bloque pas sur une invite y/n. Ce n'est pas une licence commerciale et cela ne supprime pas la restriction non commerciale.
python
# 1) Shell / CI — accepter la CPML une fois pour la session
export COQUI_TOS_AGREED=1

# 2) Dockerfile — intégrer l'acceptation dans l'image
# ENV COQUI_TOS_AGREED=1

# 3) Python — la définir avant la création du modèle
import os
os.environ["COQUI_TOS_AGREED"] = "1"   # doit être défini AVANT l'appel TTS() ci-dessous

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Le modèle se charge maintenant sans l'invite de licence interactive

⚠️Warning: COQUI_TOS_AGREED=1 ne fait que supprimer l'invite interactive — il s'agit de votre acceptation de la CPML, qui reste une licence non commerciale. Il n'accorde pas de droits commerciaux sur XTTS v2.

Comment le TTS local se compare à ElevenLabs et au TTS cloud

ElevenLabs, Google Text-to-Speech et Azure Speech restent le plafond de qualité pour le TTS en 2026.

  • Plafond de qualité : ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper.
  • Latence : Piper local (~30–50 ms premier audio) est plus rapide que tout aller-retour API ElevenLabs (~300–500 ms).
  • Coût : ElevenLabs facture 5–99 €/mois par palier. Le TTS local coûte 0 € après l'achat matériel unique.
  • Clonage vocal : ElevenLabs Instant Voice Clone ≈ qualité XTTS v2. ElevenLabs Professional Voice Clone dépasse tout moteur local.
  • Confidentialité : TTS local = aucune donnée audio envoyée nulle part. ElevenLabs = audio traité sur leurs serveurs.
  • Capacité hors ligne : Local = entièrement hors ligne. ElevenLabs = nécessite internet.
  • Quand utiliser le cloud : Production de voix professionnelle, produits orientés clients nécessitant la plus haute qualité.
  • Quand utiliser le local : Audio sensible à la confidentialité, appareils embarqués, traitement par lots sensible aux coûts, environnements hors ligne.

Comment choisir

Un organigramme de décision de votre besoin vers le bon moteur TTS :

📍 En une phrase

Besoin de clonage vocal ? → XTTS v2 (meilleure qualité) ou F5-TTS (plus rapide, nouvelle architecture) ou Coqui TTS (licence ouverte). Besoin de vitesse CPU ? → Piper. Besoin d'audio créatif ? → Bark. Besoin de la meilleure qualité anglaise ? → StyleTTS 2.

💬 En termes simples

Clonage vocal : XTTS v2 pour la qualité, F5-TTS pour la vitesse, Coqui VITS pour la licence permissive. CPU/Raspberry Pi : Piper uniquement. Effets sonores podcast : Bark. Livres audio en anglais : StyleTTS 2.

  • Besoin de clonage vocal ? → XTTS v2 (meilleure qualité, CPML) ou F5-TTS (nouvelle architecture, plus rapide, CC-BY-NC-4.0) ou Coqui VITS (bonne qualité, MPL 2.0). Pas de clonage : Piper (vitesse) ou StyleTTS 2 (qualité).
  • CPU uniquement / Raspberry Pi ? → Piper uniquement. Kokoro est une alternative CPU de meilleure qualité (Apache 2.0). Tous les autres moteurs nécessitent un GPU.
  • Besoin d'audio créatif avec des sons non vocaux ? → Bark. Aucun autre moteur local ne produit nativement des rires, soupirs ou musique.
  • Besoin de la meilleure qualité de narration anglaise ? → StyleTTS 2.
  • Besoin de support multilingue ? → XTTS v2 (17 langues), Coqui (20+), Piper (20+ packs).
  • Besoin d'une licence MIT entièrement commerciale ? → Piper, Bark ou StyleTTS 2.
  • Construction d'un pipeline d'assistant vocal ? → Piper pour une sortie TTS à faible latence.

Questions fréquemment posées

Combien d'audio de référence me faut-il pour le clonage vocal avec XTTS v2?

XTTS v2 nécessite un minimum de 3 secondes d'audio de référence propre, 6+ secondes donnant des résultats nettement meilleurs. L'audio doit être un seul locuteur avec un bruit de fond minimal et sans musique. Un matériel source de meilleure qualité produit de meilleurs clones que l'audio compressé.

Puis-je utiliser Piper TTS dans un produit commercial?

Oui. Piper est licencié sous MIT, qui permet l'utilisation commerciale illimitée. Vous devez inclure la notice de licence MIT dans votre produit. Les modèles de voix (fichiers ONNX) peuvent avoir des licences séparées par voix.

Quel moteur TTS local a le meilleur support multilingue?

XTTS v2 supporte 17 langues avec clonage vocal multilingue — la fonctionnalité multilingue la plus impressionnante de tous les moteurs locaux. Coqui TTS a 20+ modèles de langues mais sans clonage multilingue. Piper a 20+ packs de voix pour l'inférence CPU rapide.

Quel moteur TTS local sonne le plus humain?

StyleTTS 2 pour la narration en anglais — il atteint les scores MOS les plus élevés de tous les moteurs TTS anglais open-source (~4,3 vs référence humaine ~4,5). XTTS v2 et F5-TTS sont compétitifs (~4,1) pour la naturalité de voix clonée.

Puis-je utiliser XTTS v2 commercialement?

Non, pas sans accord commercial séparé. XTTS v2 est publié sous la Coqui Public Model License (CPML), qui autorise l'usage personnel, de recherche et de loisir du modèle et de ses sorties audio mais interdit l'usage commercial — tout produit payant, SaaS, contenu financé par la publicité ou travail client. Coqui Inc a fermé en janvier 2024, donc aucune entité ne vend actuellement de licences commerciales XTTS v2 ; en pratique, considérez XTTS v2 comme non commercial uniquement. Pour le clonage vocal commercial, utilisez Tortoise (Apache 2.0) ou le toolkit Coqui TTS sur un backend VITS (MPL 2.0). Ceci est une référence factuelle, pas un conseil juridique — lisez la CPML vous-même avant de déployer.

Comment accepter la licence Coqui CPML de manière non interactive (Docker / CI)?

Définissez la variable d'environnement COQUI_TOS_AGREED à 1. La bibliothèque Coqui/XTTS affiche normalement la CPML et attend que vous tapiez « y », ce qui bloque les builds Docker, la CI et les serveurs sans interface. Définir COQUI_TOS_AGREED=1 enregistre votre acceptation afin que le modèle se charge sans l'invite. Utilisez export COQUI_TOS_AGREED=1 dans un shell ou une étape CI, ENV COQUI_TOS_AGREED=1 dans un Dockerfile, ou `os.environ["COQUI_TOS_AGREED"] = "1"` en Python avant l'appel TTS(). Cela ne fait que supprimer l'invite — c'est votre accord à la CPML et cela n'accorde pas de droits commerciaux.

Combien de voix et de langues XTTS v2 prend-il en charge?

XTTS v2 n'a pas de catalogue fixe de voix nommées — c'est un modèle de clonage, vous fournissez donc un extrait de référence de 6 secondes et il reproduit ce locuteur (le dépôt livre aussi quelques préréglages de locuteurs intégrés pour des tests rapides). Il génère la parole dans 17 langues : anglais, espagnol, français, allemand, italien, portugais, polonais, turc, russe, néerlandais, tchèque, arabe, chinois (zh-cn), japonais, hongrois, coréen et hindi. Le clonage est multilingue : clonez une voix une fois et générez-la dans n'importe laquelle des 17 langues.

Kokoro vs Piper — quel TTS CPU léger choisir?

Les deux fonctionnent rapidement sur CPU sans GPU et tous deux sont sous licence permissive (Piper est MIT, Kokoro est Apache 2.0), donc l'un ou l'autre est sûr pour l'usage commercial. Choisissez Piper quand vous avez besoin de la latence la plus faible et de la couverture linguistique la plus large (20+ packs de voix, temps réel sur un Raspberry Pi 5) — c'est la référence pour la voix embarquée et la maison connectée. Choisissez Kokoro (un modèle de 82M de paramètres bâti sur l'architecture StyleTTS 2) quand vous voulez une plus grande naturalité que Piper et pouvez accepter un peu plus de calcul ; sa qualité en anglais est plus proche des moteurs GPU plus lourds. Pour un Raspberry Pi ou un assistant toujours actif, Piper ; pour une lecture à voix haute sur poste de travail/serveur où la qualité importe plus que les millisecondes, Kokoro.

Sources

← Retour aux LLM locaux avancés