Wichtigste Erkenntnisse
- Piper ist die beste Wahl für Geschwindigkeit und Embedded-Anwendungen. Es läuft vollständig auf der CPU, erzeugt Echtzeit-Sprache auf einem Raspberry Pi 5 und unterstützt 20+ Sprachen über herunterladbare Voice-Packs. Keine GPU, keine Python-Komplexität, MIT-Lizenz.
- XTTS v2 ist die beste lokale Voice-Cloning-Option 2026 — aber nicht-kommerziell. Geben Sie 6 Sekunden Referenzaudio ein und es klont die Stimme in 17 Sprachen (4–6 GB GPU-VRAM). Die CPML-Lizenz ist nicht-kommerziell, und seit Coqui geschlossen hat (Januar 2024) ist keine kommerzielle Lizenz mehr im Verkauf — behandeln Sie XTTS v2 als ausschließlich nicht-kommerziell. Akzeptieren Sie die CPML nicht-interaktiv in Docker/CI mit
COQUI_TOS_AGREED=1. - F5-TTS ist die schnell wachsende Alternative für Zero-Shot-Voice-Cloning. Es verwendet eine Flow-Matching-Architektur anstelle von GPT, klont eine Stimme aus ~3 Sekunden Referenzaudio und erzielt Qualität vergleichbar mit XTTS v2 bei schnellerem Inferenzen. Lizenz: CC-BY-NC-4.0 (nur nicht-kommerziell).
- Coqui TTS ist das flexibelste Open-Source-TTS-Toolkit. Es unterstützt mehrere Backends (Tacotron2, VITS, XTTS), Voice-Cloning und 20+ Sprachen unter MPL 2.0-Lizenz. Hinweis: Das Coqui-Unternehmen wurde im Januar 2024 geschlossen; das Projekt wird nun von der Community gepflegt.
- Bark ist die einzige lokale TTS, die nicht-sprachliche Audio generiert. Es kann Lachen, Husten, Seufzer, Musikschnipsel und Umgebungsgeräusche neben Sprache erzeugen — nützlich für kreative Audioinhalte, Podcast-Produktion und interaktive Fiktion. Die Ausgaben sind langsam und nicht-deterministisch.
- StyleTTS 2 erreicht die höchsten MOS-Werte (Mean Opinion Score) aller Open-Source-englischen TTS-Engines. Sein diffusionsbasiertes Style-Transfer erzeugt fast-menschliche Natürlichkeit bei englischen Narrationen. Es unterstützt nur Englisch und hat kein Voice-Cloning.
- Die Lizenz entscheidet über die kommerzielle Nutzung — und die Trennung ist klar. Kostenlos für kommerzielle Produkte: Piper, Bark, StyleTTS 2 (MIT) sowie Kokoro, Tortoise (Apache 2.0). Kommerziell mit Bedingungen: Coqui-TTS-Toolkit (MPL 2.0, Toolkit-Änderungen offenlegen). Nur nicht-kommerziell: XTTS v2 (CPML) und F5-TTS (CC-BY-NC-4.0) — beide benötigen eine separate Vereinbarung. Für kommerzielles Voice-Cloning verwenden Sie Tortoise (Apache 2.0) oder das Coqui-Toolkit auf einem VITS-Backend (MPL 2.0). Sachliche Referenz, keine Rechtsberatung.
- Keine entsprechen kommerzieller TTS-Qualität im großen Maßstab. ElevenLabs, Google Text-to-Speech und Azure TTS übertreffen lokale Engines immer noch bei Konsistenz, Natürlichkeit und Latenz. Lokale TTS ist die richtige Wahl, wenn Datenschutz, Kosten oder Offline-Betrieb wichtiger ist als absolute Qualität.
Kurzübersicht
- Schnellstes lokales TTS: Piper — Echtzeit auf Raspberry Pi 5, ~10× schneller als Echtzeit auf modernem Desktop-CPU.
- Beste Voice-Cloning-Qualität: XTTS v2 — 6 Sekunden Referenzaudio, sprachübergreifendes Cloning in 17 Sprachen.
- Schnellstes Zero-Shot-Voice-Cloning (neuere Architektur): F5-TTS — ~3 Sekunden Audio, Flow-Matching, ~3–5× Echtzeit auf RTX 4070.
- Flexibelstes Open-Source-Toolkit: Coqui TTS — unterstützt VITS, Tacotron2, XTTS-Backends, 20+ Sprachmodelle.
- Einziges generatives Audio (Nicht-Sprach-Klänge): Bark — Lachen, Seufzer, Musik, Umgebungsgeräusche. Langsamstes von allen.
- Beste englische Narrations-Qualität: StyleTTS 2 — diffusionsbasiertes Style-Transfer, nahezu menschlicher MOS auf dem LJSpeech-Benchmark.
- Kostenlos für kommerzielle Nutzung: Piper, Bark, StyleTTS 2 (MIT); Kokoro, Tortoise (Apache 2.0); Coqui-TTS-Toolkit (MPL 2.0, mit Bedingungen). Nicht-kommerziell: XTTS v2 (CPML), F5-TTS (CC-BY-NC-4.0).
- XTTS v2 Stimmen und Sprachen: Keine feste Stimmenliste — Sie liefern einen 6-Sekunden-Referenzclip, und es klont diese Stimme. Eingebaute Speaker-Presets werden mit dem Modell ausgeliefert, und es generiert in 17 Sprachen: en, es, fr, de, it, pt, pl, tr, ru, nl, cs, ar, zh-cn, ja, hu, ko, hi.
- XTTS v2 VRAM: ~2 GB Modellgewichte; 4 GB Minimum zum Betrieb, 4–6 GB empfohlen für Echtzeit-Inferenz.
- CPML in CI/Docker akzeptieren:
export COQUI_TOS_AGREED=1— keine interaktive Eingabeaufforderung nötig. - VRAM-Anforderungen: Piper: nur CPU. Kokoro: CPU / 1–2 GB. StyleTTS 2: 2–4 GB. Coqui VITS: 2–4 GB. F5-TTS: 3–5 GB. XTTS v2: 4–6 GB. Bark: 4–8 GB. Tortoise: 4–8 GB.
Warum lokales TTS wichtig ist
Cloud-TTS-Dienste (ElevenLabs, Google TTS, Amazon Polly, Azure Speech) sind bequem, aber sie bringen zeichenbasierte Abrechnung, Aufbewahrungsrichtlinien für Audiodaten und Latenz durch Netzwerk-Roundtrips mit sich. Lokales TTS eliminiert alle drei Nachteile.
- Datenschutz: Ihr Textinhalt verlässt niemals Ihren Computer. Kritisch für medizinische Diktate, rechtliche Zusammenfassungen, private Tagebuchnarration oder vertrauliches Vorlesen von Dokumenten.
- Kosten: Cloud-TTS-Preise liegen typischerweise bei 4–30 € pro Million Zeichen. Ein Entwickler, der 10 Millionen Zeichen pro Monat generiert, spart 40–300 €/Monat mit einem einmaligen lokalen Setup.
- Latenz: Kein Netzwerk-Roundtrip. Piper generiert das erste Audio-Token in unter 50 ms auf der CPU — schneller als jeder Cloud-TTS-Roundtrip.
- Anpassung: Voice-Cloning (XTTS v2, F5-TTS, Coqui) ermöglicht die Erstellung einer eigenen Stimme aus wenigen Sekunden Audio. Cloud-Anbieter berechnen 10 €+/Monat pro geklonter Stimme.
- Offline-Betrieb: Funktioniert in Flugzeugen, in gesicherten Einrichtungen, in abgelegenen Gebieten ohne Internet. Eingebettete Sprach-UI für Kioske und Geräte.
- Smart Home: Piper ist die führende TTS-Schicht für immer-aktive lokale Sprachschnittstellen — Echtzeit auf Raspberry Pi, keine GPU erforderlich. Für einen vollständigen Offline-Sprachassistenten in Home Assistant, siehe lokaler Sprachassistent für Smart Home →.
Direkter Vergleich
Alle lokalen TTS-Engines im Vergleich anhand der wichtigsten Metriken für den Produktionseinsatz.
📍 In einem Satz
Piper ist am schnellsten auf der CPU; XTTS v2 bietet die beste Voice-Cloning-Qualität; F5-TTS ermöglicht Zero-Shot-Cloning mit einer neueren Architektur; Bark ist die einzige Engine, die Lachen und Musik erzeugt; StyleTTS 2 hat die beste englische Narrations-Natürlichkeit.
💬 In einfachen Worten
Für die meisten Offline-TTS-Anforderungen: Piper für Geschwindigkeit und Einfachheit, Coqui für Voice-Cloning mit einer freizügigen Lizenz, XTTS v2 für beste Cloning-Qualität mit GPU, F5-TTS für eine neuere Architektur mit schnellerem Zero-Shot-Cloning.
| Tool | Qualität | Geschwindigkeit | Voice-Cloning | Mehrsprachig | VRAM | Lizenz | MOS (Englisch) |
|---|---|---|---|---|---|---|---|
| Piper | Gut | Sehr schnell (CPU) | Nein | Ja (20+ Sprachen) | Nur CPU | MIT | ~3,5 |
| Kokoro | Sehr gut | Schnell (CPU) | Nein | Englisch + wachsend | CPU / 1–2 GB | Apache 2.0 | ~4,0 |
| Coqui TTS | Sehr gut | Mittel | Ja | Ja (20+ Sprachen) | 2–4 GB | MPL 2.0 | ~3,8 |
| XTTS v2 | Ausgezeichnet | Langsam | Ja (beste) | Ja (17 Sprachen) | 4–6 GB | CPML (nicht-kommerziell) | ~4,1 |
| F5-TTS | Ausgezeichnet | Mittel-schnell | Ja (Zero-Shot) | Ja (mehrsprachig) | 3–5 GB | CC-BY-NC-4.0 | ~4,1 |
| Bark | Einzigartig / variabel | Langsam | Begrenzt | Ja (mehrsprachig) | 4–8 GB | MIT | ~3,2–4,0 (variabel) |
| StyleTTS 2 | Ausgezeichnet (Englisch) | Mittel | Nein | Hauptsächlich Englisch | 2–4 GB | MIT | ~4,3 |
| Tortoise | Ausgezeichnet | Sehr langsam (Minuten/Satz) | Ja | Hauptsächlich Englisch | 4–8 GB | Apache 2.0 | ~4,2 |
MOS (Mean Opinion Score) auf einer Skala von 1–5, wobei 5 nicht von menschlicher Sprache zu unterscheiden ist. Werte sind näherungsweise und basieren auf veröffentlichten Benchmarks oder Community-Evaluierungen. MOS variiert erheblich je nach Testsatz und Zuhörerpool. Menschlicher Referenz-MOS: ~4,5.
Erster-Audio-Latenz-Vergleich
Die Erster-Audio-Latenz ist die Zeit von der Texteingabe bis zur ersten hörbaren Ausgabe. Kritisch für Sprach-Assistenten und interaktive Anwendungen. Bei der Stapelverarbeitung (Hörbücher, Podcast-Produktion) ist der Gesamtdurchsatz wichtiger als die Erster-Audio-Latenz.
| Engine | Erstes Audio (RTX 4070) | Erstes Audio (CPU) | Erstes Audio (M5 Pro) |
|---|---|---|---|
| Piper | ~30 ms | ~50 ms | ~40 ms |
| Kokoro | ~50 ms | ~80 ms | ~60 ms |
| Coqui VITS | ~100 ms | ~300 ms | ~150 ms |
| StyleTTS 2 | ~150 ms | ~500 ms | ~200 ms |
| F5-TTS | ~200 ms | ~800 ms | ~300 ms |
| XTTS v2 | ~300 ms | ~1500 ms | ~500 ms |
| Bark | ~500 ms | ~3000 ms | ~800 ms |
Piper TTS — Schnellste Leichtgewichts-Option
Piper ist ein schnelles, lokales Text-to-Speech-System, das von Rhasspy für Heimautomatisierung und Embedded-Anwendungen entwickelt wurde. Es verwendet eine VITS-basierte neuronale Architektur, die auf Sprachdatensätzen mit einem onnxruntime-Backend trainiert wurde — optimiert für den Echtzeit-Betrieb auf einem Raspberry Pi 4 oder 5 ohne GPU.
- Architektur: VITS neuronales TTS mit ONNX-Inferenz. Entwickelt für Einplatinencomputer und Embedded Linux.
- Installation:
pip install piper-tts. Vortrainierte Voice-Packs sind im Piper-Voices-Repository auf Hugging Face verfügbar. - Verwendung:
echo "Hallo, Welt" | piper --model de_DE-thorsten-medium.onnx --output_file ausgabe.wav - Voice-Packs: 20+ Sprachen, mehrere Voice-Optionen pro Sprache. Jedes Voice-Pack ist eine 20–200 MB große ONNX-Modelldatei.
- Geschwindigkeit: ~10× schneller als Echtzeit auf einem modernen Desktop-CPU. Echtzeit auf Raspberry Pi 5. Unter-50-ms-Erster-Audio-Latenz.
- Apple Silicon: ~15× Echtzeit auf M5 Pro (CPU, ARM NEON). Läuft nativ ohne GPU — ausgezeichnete Leistung auf Mac.
- Beispiele anhören: Piper Voice-Samples
- Am besten für: Heimassistenten, Kiosk-Geräte, Embedded-Sprach-UI, datenschutzsensitives Vorlesen ohne verfügbare GPU.
- Einschränkung: Kein Voice-Cloning. Qualität ist „gut" — natürlich klingend, aber klar synthetisch im Vergleich zu XTTS v2 oder StyleTTS 2.
- Lizenz: MIT — vollständig kommerziell, keine Einschränkungen.
- Kokoro TTS — Piper-Alternative: Kokoro TTS ist eine aufkommende Alternative zu Piper in der Leichtgewichts-Kategorie. Es erreicht höhere Natürlichkeit als Piper und bleibt dabei schnell auf der CPU. Lizenziert unter Apache 2.0. Wenn Pipers Qualität Ihre Anforderungen nicht erfüllt, Sie sich aber keine GPU-VRAM leisten können, ist Kokoro einen Test wert.
Coqui TTS — Bestes Open-Source-Allround-Toolkit
Coqui TTS ist ein Python-Toolkit für Text-to-Speech, das mehrere Modellarchitekturen und Voice-Cloning unterstützt. Es wurde vom Coqui-Unternehmen entwickelt (das im Januar 2024 geschlossen wurde) und wird jetzt von der Open-Source-Community gepflegt. Das Toolkit unterstützt Tacotron2-, VITS- und XTTS-Backends.
- Installation:
pip install TTS. Modelle werden beim ersten Gebrauch automatisch heruntergeladen. - Voice-Cloning: Geben Sie 6+ Sekunden Referenzaudio an.
tts --text "Hallo" --model_name tts_models/de/thorsten/tacotron2-DDC --speaker_wav beispiel.wav --out_path ausgabe.wav - Backend-Optionen: VITS (schnellste, gute Qualität), Tacotron2 (älter, langsamer), XTTS (beste Qualität, siehe XTTS v2-Abschnitt).
- Sprachen: 20+ Sprachmodelle verfügbar über
tts --list_models. - VRAM: 2–4 GB für VITS-Backend; 4–6 GB für XTTS-Backend.
- Apple Silicon: ~8× Echtzeit auf M5 Pro (CPU). Keine Metal-GPU-Beschleunigung. Für Stapelgenerierung verwendbar.
- Community-Status: Coqui Inc schloss im Januar 2024. Das Open-Source-Repo (
coqui-ai/TTS) wird von der Community gepflegt. Kein aktiver kommerzieller Support. - Lizenz: MPL 2.0 — Kommerzielle Nutzung erlaubt, aber Quellcode von Änderungen muss offengelegt werden.
- Am besten für: Entwickler, die Voice-Cloning mit einem Open-Source-Toolkit und einer freizügigen Lizenz wollen.
XTTS v2 — Beste Voice-Cloning-Qualität
XTTS v2 (von Coqui) ist die hochwertigste lokal verfügbare Voice-Cloning-Engine im Jahr 2026. Es verwendet eine GPT-basierte Architektur mit sprachübergreifendem Transfer — klonen Sie eine Stimme auf Englisch und sprechen Sie sie auf Spanisch, Deutsch, Französisch oder 14 anderen Sprachen aus denselben 6 Sekunden Audio.
- Architektur: GPT-basiertes TTS mit Speaker-Conditioning. Vision-Transformer für Prosodie-Modellierung.
- Voice-Cloning: 6 Sekunden Referenzaudio sind ausreichend für ein überzeugendes Voice-Cloning. 3 Sekunden erzeugen passable Qualität.
- Sprachübergreifendes Cloning: Stimme in einer Sprache klonen, Sprache in 17 verschiedenen Sprachen mit denselben Stimm-Charakteristiken generieren.
- Sprachen (17): Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Polnisch, Türkisch, Russisch, Niederländisch, Tschechisch, Arabisch, Chinesisch (zh-cn), Japanisch, Ungarisch, Koreanisch und Hindi. Koreanisch und Hindi kamen in XTTS v2.0.3 hinzu.
- „XTTS v2 Stimmen": Es gibt keinen festen Katalog benannter Stimmen. XTTS v2 ist ein Cloning-Modell — Sie liefern einen 6-Sekunden-Referenzclip, und es reproduziert diesen Sprecher. Das Repo liefert eine Handvoll eingebauter Speaker-Presets für schnelle Tests, aber der vorgesehene Workflow besteht darin, Ihr eigenes
speaker_wavbereitzustellen. - VRAM: Modellgewichte sind ~2 GB. 4 GB VRAM sind das praktische Minimum; 4–6 GB werden für Echtzeit-Inferenz empfohlen. Läuft auf CPU, aber ~5–10× langsamer.
- Geschwindigkeit: Langsam — generiert ~2× Echtzeit auf einem RTX 4070. Nicht geeignet für Echtzeit-Sprach-Assistenten-Pipelines.
- Apple Silicon: ~3× Echtzeit auf M5 Pro (CPU, keine Metal-Beschleunigung). Für Stapel-Audio-Generierung verwendbar, nicht für Echtzeit-Sprach-Assistenten-Ausgabe.
- Lizenz: CPML (Coqui Public Model License) — nicht-kommerziell. Die CPML erlaubt persönliche, Forschungs- und Hobby-Nutzung des Modells und seiner Audio-Ausgaben, untersagt aber die kommerzielle Nutzung (jedes kostenpflichtige Produkt, SaaS, werbefinanzierte Inhalte oder Auftragsarbeit) ohne separate kommerzielle Vereinbarung. Coqui Inc wurde im Januar 2024 geschlossen, daher gibt es derzeit kein Unternehmen, das XTTS-v2-Kommerzlizenzen verkauft — behandeln Sie XTTS v2 in der Praxis als ausschließlich nicht-kommerziell. Siehe den Abschnitt Nicht-interaktives Akzeptieren der CPML für die Umgebungsvariable
COQUI_TOS_AGREED.
from TTS.api import TTS
# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
text="Bonjour, je suis votre assistant vocal.",
speaker_wav="reference_voice.wav", # 6+ seconds of the target speaker
language="fr", # Output in French using the cloned voice
file_path="output.wav"
)⚠️Warning: XTTS v2 unterliegt der CPML-Lizenz (nicht-kommerziell). Die kommerzielle Nutzung — Produkte, SaaS, Dienste oder bezahlte Auftragsarbeit — erfordert eine separate kommerzielle Vereinbarung, und da Coqui Inc im Januar 2024 geschlossen wurde, ist eine solche Vereinbarung derzeit nicht käuflich erhältlich. Wenn Sie kommerzielles Voice-Cloning benötigen, verwenden Sie Tortoise (Apache 2.0) oder das Coqui-TTS-Toolkit auf einem VITS-Backend (MPL 2.0). Dies ist eine sachliche Referenz, keine Rechtsberatung — lesen Sie die CPML selbst, bevor Sie sie einsetzen.
Bark — Generatives Audio jenseits von Sprache
Bark (von Suno AI) ist ein generatives Text-to-Audio-Modell, das Sprache, Musik, Lachen, Husten, Seufzer und Umgebungsgeräusche aus Textprompts erzeugt. Es ist kein traditionelles TTS-System — es ist ein generatives Modell, das Textprompts als Audiogenerierungs-Anweisungen interpretiert.
- Einzigartige Fähigkeit: Fügen Sie `[laughs]
,[sighs],[clears throat],[music]oder[sound effect: wind]` in Ihren Text ein und Bark generiert diese Klänge neben der Sprache. - Nicht steuerbar wie traditionelles TTS: Die Ausgabe variiert zwischen Durchläufen für dieselbe Eingabe. Die Qualität ist inkonsistent — manche Ausgaben sind ausgezeichnet, andere haben Artefakte oder unverständliche Segmente.
- Geschwindigkeit: Langsam — 2–4× langsamer als Echtzeit selbst auf einem RTX 4090. Nicht geeignet für interaktive Anwendungen.
- Apple Silicon: ~1,5× Echtzeit auf M5 Pro (CPU, MPS partiell). MPS (Metal Performance Shaders)-Unterstützung ist partiell — die meiste Inferenz fällt weiterhin auf CPU zurück.
- Am besten für: Kreatives Audio, Podcast-Produktion mit Soundeffekten, interaktive Fiktion, experimentelle Sprach-Anwendungen.
- VRAM: 4–8 GB GPU. Läuft auf CPU mit deutlich niedrigerer Qualität.
- Installation:
pip install suno-bark. Modelle werden beim ersten Ausführen heruntergeladen (~2 GB). - Lizenz: MIT — vollständig kommerziell.
- Einschränkung: Kein zuverlässiges Voice-Cloning. Die mit Bark gebündelten „Voice-Presets" sind näherungsweise — kein echtes Voice-Cloning-System.
StyleTTS 2 — Höchste natürliche Qualität
StyleTTS 2 ist ein diffusionsbasiertes TTS-Modell, das nahezu menschliche Mean Opinion Scores (MOS) auf dem LJSpeech-Benchmark erreicht. Es überträgt den Sprechstil mittels Diffusion — generiert Sprache, die natürlicher und ausdrucksvoller ist als VITS-basierte Modelle.
- Architektur: Diffusionsbasiertes Style-Transfer. Sampling aus einer gelernten Verteilung von Sprechstilen statt deterministischer Zuordnung von Text zu Audio.
- Qualität: Höchste MOS-Werte aller Open-Source-englischen TTS-Engines auf dem LJSpeech-Benchmark.
- Am besten für: Hörbuch-Narration, professionellen Voiceover, Podcast-Produktion.
- Installation: GitHub-Repo klonen, Anforderungen installieren (
pip install -r requirements.txt), Modell-Checkpoints herunterladen (~500 MB). - Sprachunterstützung: Hauptsächlich Englisch. Nicht empfohlen für Nicht-Englisch-Verwendung.
- Voice-Cloning: Nicht unterstützt. StyleTTS 2 generiert nur in trainierten Speaker-Stimmen.
- VRAM: 2–4 GB GPU. Schneller als XTTS v2 bei ~5–8× Echtzeit auf RTX 4070.
- Apple Silicon: ~6× Echtzeit auf M5 Pro (CPU). Keine Metal-Beschleunigung.
- Lizenz: MIT — vollständig kommerziell.
F5-TTS — Zero-Shot-Voice-Cloning, vollständig offen
F5-TTS ist ein Flow-Matching-basiertes TTS-Modell mit Zero-Shot-Voice-Cloning — klonen Sie jede Stimme aus ~3 Sekunden Referenzaudio ohne Fine-Tuning.
- Architektur: Flow-Matching (ein Diffusions-Varianten-Ansatz) statt GPT-basierter Architektur wie bei XTTS v2. Typischerweise schnellere Inferenz mit vergleichbarer Qualität.
- Voice-Cloning: ~3 Sekunden Referenzaudio sind ausreichend. Kein Fine-Tuning erforderlich.
- Qualität: Vergleichbar mit XTTS v2 auf Englisch. MOS-Werte ~4,1 in Community-Evaluierungen.
- Geschwindigkeit: ~3–5× Echtzeit auf RTX 4070 — schneller als XTTS v2.
- Sprachen: Starke Unterstützung für Englisch und Chinesisch, mit wachsender Unterstützung für weitere Sprachen.
- Apple Silicon: ~2× Echtzeit auf M5 Pro (CPU). Derzeit keine Metal-Beschleunigung.
- VRAM: 3–5 GB GPU empfohlen.
- Installation:
pip install f5-ttsoder von GitHub klonen. - Lizenz: CC-BY-NC-4.0 — nur nicht-kommerziell. Kommerzielle Nutzung erfordert eine separate Vereinbarung.
Lizenzen & kommerzielle Nutzung — Darf ich diese TTS-Engine kommerziell nutzen?
Die Lizenz ist der wichtigste Einzelfaktor für den Produktionseinsatz, und sie teilt diese Engines klar in zwei Gruppen. Freizügig lizenzierte Engines (MIT, Apache 2.0) dürfen frei in einem kommerziellen Produkt ausgeliefert werden. Eingeschränkte Engines (CPML, CC-BY-NC-4.0) sind nicht-kommerziell — ihre Nutzung in einem kostenpflichtigen Produkt, SaaS, werbefinanzierten Inhalten oder Auftragsarbeit erfordert eine separate Vereinbarung. Die Tabelle unten nennt die exakte Lizenz und eine direkte Antwort auf „Darf ich das kommerziell nutzen?" für jede Engine.
📍 In einem Satz
Für lokales TTS in einem kommerziellen Produkt sind Piper, Bark und StyleTTS 2 (MIT), Kokoro und Tortoise (Apache 2.0) sowie das Coqui-TTS-Toolkit auf einem VITS-/Tacotron2-Backend (MPL 2.0) alle erlaubt; XTTS v2 (CPML) und F5-TTS (CC-BY-NC-4.0) sind nicht-kommerziell.
💬 In einfachen Worten
Die beiden beliebtesten Voice-Cloning-Modelle — XTTS v2 und F5-TTS — dürfen ohne separate Lizenz nicht kommerziell genutzt werden. Für kommerzielles Voice-Cloning sind Tortoise (Apache 2.0) oder das Coqui-Toolkit auf einem VITS-Backend (MPL 2.0) die sicheren Optionen.
| Tool | Lizenz | Kommerziell erlaubt? | Hauptbedingung |
|---|---|---|---|
| Piper | MIT | Ja — keine Einschränkungen | MIT-Hinweis angeben; Lizenz je Voice-Modell prüfen |
| Kokoro | Apache 2.0 | Ja — keine Einschränkungen | Apache 2.0-Hinweis angeben |
| Coqui TTS (Toolkit) | MPL 2.0 | Ja — mit Bedingungen | Quelle aller Änderungen an den Toolkit-Dateien offenlegen |
| XTTS v2 (Modell) | CPML | Nein — nicht-kommerziell | Kommerziell braucht eine Vereinbarung; seit Coqui-Schließung (Jan. 2024) keine im Verkauf |
| F5-TTS | CC-BY-NC-4.0 | Nein — nicht-kommerziell | NC überträgt sich auch auf Fine-Tunes (Emilia-Trainingsdaten) |
| Bark | MIT | Ja — keine Einschränkungen | MIT-Copyright-Hinweis angeben |
| StyleTTS 2 | MIT | Ja — keine Einschränkungen | MIT-Copyright-Hinweis angeben |
| Tortoise | Apache 2.0 | Ja — keine Einschränkungen | Namensnennung; Einwilligung für jede geklonte Stimme einholen |
📌Note: Coqui TTS (das Toolkit, MPL 2.0) und XTTS v2 (die spezifischen Modellgewichte, CPML) sind unterschiedlich lizenziert. Sie können das Coqui-TTS-Toolkit mit VITS- oder Tacotron2-Backends unter MPL 2.0 in einem kommerziellen Produkt ausliefern. Die CPML-Beschränkung auf nicht-kommerzielle Nutzung gilt speziell für die XTTS-v2-Modellgewichte und deren Audio-Ausgaben — nicht für den Toolkit-Code.
⚠️Warning: Dies ist eine sachliche Referenz, keine Rechtsberatung. Lizenzen ändern sich, und Sonderfälle (Stimm-Einwilligung, Datensatz-Bedingungen, Lizenzen einzelner Voice-Modelle) sind relevant. Lesen Sie die Lizenzdatei jeder Engine selbst und konsultieren Sie einen Anwalt, bevor Sie sich für einen kommerziellen Einsatz auf eine dieser Bedingungen verlassen.
Die CPML nicht-interaktiv akzeptieren (COQUI_TOS_AGREED)
Wenn Sie ein XTTS-/Coqui-Modell, das von der CPML abgedeckt ist, zum ersten Mal laden, gibt die Bibliothek die Lizenzbedingungen aus und wartet, bis Sie zum Akzeptieren „y" eingeben. Diese interaktive Eingabeaufforderung blockiert in Docker-Builds, CI-Pipelines und Headless-Servern. Um die CPML nicht-interaktiv zu akzeptieren, setzen Sie die Umgebungsvariable COQUI_TOS_AGREED auf 1 — dies hält fest, dass Sie die Coqui Public Model License gelesen und ihr zugestimmt haben, bevor das Modell lädt. Es ändert die Lizenz nicht: Die CPML bleibt nicht-kommerziell, und das Setzen der Variable ist Ihre Zustimmung zu diesen Bedingungen, kein Verzicht darauf.
📍 In einem Satz
Setzen Sie die Umgebungsvariable COQUI_TOS_AGREED=1, um die Coqui Public Model License (CPML) ohne die interaktive Eingabeaufforderung in Docker, CI oder jeder Headless-Umgebung zu akzeptieren.
💬 In einfachen Worten
In einer Shell oder einem Dockerfile verwenden Sie export COQUI_TOS_AGREED=1; in Python setzen Sie `os.environ["COQUI_TOS_AGREED"] = "1"` vor dem Importieren oder Laden des Modells. In beiden Fällen lädt das Modell, ohne auf Tastatureingaben zu warten.
- Shell / CI:
export COQUI_TOS_AGREED=1vor dem Ausführen Ihres Skripts. - Docker: Fügen Sie
ENV COQUI_TOS_AGREED=1zu Ihrem Dockerfile hinzu oder übergeben Sie-e COQUI_TOS_AGREED=1andocker run. - Python (vor dem Laden des Modells setzen): `import os; os.environ["COQUI_TOS_AGREED"] = "1"
— muss vor der Instanziierung des XTTS-Modells durchTTS(...)` laufen. - Was es bewirkt: Es hält die nicht-interaktive Zustimmung zur CPML fest, sodass das Laden des Modells nicht an einer
y/n-Eingabeaufforderung blockiert. Es ist keine kommerzielle Lizenz und hebt die nicht-kommerzielle Beschränkung nicht auf.
# 1) Shell / CI — die CPML einmal für die Session akzeptieren
export COQUI_TOS_AGREED=1
# 2) Dockerfile — Zustimmung in das Image einbacken
# ENV COQUI_TOS_AGREED=1
# 3) Python — vor der Erstellung des Modells setzen
import os
os.environ["COQUI_TOS_AGREED"] = "1" # muss VOR dem TTS()-Aufruf unten gesetzt sein
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Das Modell lädt nun ohne die interaktive Lizenz-Eingabeaufforderung⚠️Warning: COQUI_TOS_AGREED=1 unterdrückt nur die interaktive Eingabeaufforderung — es ist Ihre Zustimmung zur CPML, die eine nicht-kommerzielle Lizenz bleibt. Es gewährt keine kommerziellen Rechte an XTTS v2.
Lokales TTS im Vergleich zu ElevenLabs und Cloud-TTS
ElevenLabs, Google Text-to-Speech und Azure Speech bleiben die Qualitätsgrenze für TTS im Jahr 2026.
- Qualitätsgrenze: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper.
- Latenz: Piper lokal (~30–50 ms erstes Audio) ist schneller als jeder ElevenLabs-API-Roundtrip (~300–500 ms).
- Kosten: ElevenLabs berechnet 5–99 €/Monat nach Tarif. Lokales TTS kostet 0 € nach einmaliger Hardware.
- Voice-Cloning: ElevenLabs Instant Voice Clone ≈ XTTS v2 Qualität. ElevenLabs Professional Voice Clone übertrifft jede lokale Engine.
- Datenschutz: Lokales TTS = keine Audiodaten werden irgendwohin gesendet. ElevenLabs = Audio wird auf deren Servern verarbeitet.
- Offline-Fähigkeit: Lokal = vollständig offline. ElevenLabs = benötigt Internet.
- Wann Cloud verwenden: Professionelle Voiceover-Produktion, kundenseitige Produkte, die höchste Qualität erfordern.
- Wann lokal verwenden: Datenschutzkritisches Audio, Embedded-Geräte, kostensensible Stapelverarbeitung, Offline-Umgebungen.
Wie Sie wählen
Ein Entscheidungsdiagramm von Ihrer Anforderung zur richtigen TTS-Engine:
📍 In einem Satz
Voice-Cloning benötigt? → XTTS v2 (beste Qualität) oder F5-TTS (schneller, neuere Architektur) oder Coqui TTS (offene Lizenz). CPU-Geschwindigkeit benötigt? → Piper. Kreatives Audio benötigt? → Bark. Beste englische Qualität benötigt? → StyleTTS 2.
💬 In einfachen Worten
Voice-Cloning: XTTS v2 für Qualität, F5-TTS für Geschwindigkeit, Coqui VITS für freizügige Lizenz. CPU/Raspberry Pi: nur Piper. Podcast-Soundeffekte: Bark. Englische Hörbücher: StyleTTS 2.
- Voice-Cloning benötigt? → XTTS v2 (beste Qualität, CPML) oder F5-TTS (neuere Architektur, schneller, CC-BY-NC-4.0) oder Coqui VITS (gute Qualität, MPL 2.0). Kein Cloning benötigt: Piper (Geschwindigkeit) oder StyleTTS 2 (Qualität).
- Nur CPU / Raspberry Pi benötigt? → Nur Piper. Kokoro ist eine hochwertigere CPU-Alternative (Apache 2.0). Alle anderen Engines benötigen GPU.
- Kreatives Audio mit Nicht-Sprach-Klängen benötigt? → Bark. Keine andere lokale Engine erzeugt nativ Lachen, Seufzer oder Musik.
- Beste englische Narrations-Qualität benötigt? → StyleTTS 2.
- Mehrsprachige Unterstützung benötigt? → XTTS v2 (17 Sprachen), Coqui (20+), Piper (20+ Packs).
- Vollständig kommerzielle MIT-Lizenz benötigt? → Piper, Bark oder StyleTTS 2.
- Sprach-Assistenten-Pipeline aufbauen? → Piper für Niedrig-Latenz-TTS-Ausgabe.
Häufig gestellte Fragen
Wie viel Referenz-Audio benötige ich für Voice-Cloning mit XTTS v2?
XTTS v2 benötigt mindestens 3 Sekunden sauberes Referenzaudio, wobei 6+ Sekunden deutlich bessere Ergebnisse geben. Das Audio muss ein einzelner Sprecher mit minimalem Hintergrundgeräusch und ohne Musik sein. Higher-Quality-Quellmaterial erzeugt bessere Klone als komprimiertes Audio.
Kann ich Piper TTS in einem kommerziellen Produkt verwenden?
Ja. Piper ist unter der MIT-Lizenz lizenziert, die unbegrenzte kommerzielle Nutzung gestattet. Sie müssen die MIT-Lizenznotiz in Ihrem Produkt angeben. Die Voice-Modelle (ONNX-Dateien) können separate Lizenzen pro Voice haben.
Muss ich bei der Verwendung von lokalen TTS-Engines die DSGVO beachten?
Lokale TTS-Engines, die vollständig offline laufen, verursachen per Design keine DSGVO-Probleme für interne Nutzung — da keine persönlichen Daten Ihre Systeme verlassen, ist keine Datenverarbeitungsvereinbarung erforderlich. Überprüfen Sie jedoch Ihre lokale Speicherung: Wenn Ihr Orchestrator Gesprächsverlauf oder Audio-Dateien speichert, unterliegen diese Speicher den Aufbewahrungsanforderungen (DSGVO Artikel 5). Verwenden Sie kurzlebigen In-Memory-Speicher oder verschlüsselt lokalen Speicher mit angemessenen Aufbewahrungsrichtlinien.
Ist lokale TTS für den deutschen Mittelstand geeignet?
Ja. Für kleine und mittlere Unternehmen (KMU) bietet lokale TTS Kosten-Effizienz, Datenschutz und Compliance mit BSI-Grundschutz-Standards. Piper ist ideal für einfache Automatisierung und Customer-Service-Anwendungen. Coqui TTS oder XTTS v2 eignen sich für anspruchsvollere Voice-Cloning-Anforderungen in Finanz-, Rechts- oder Gesundheitskontexten.
Darf ich XTTS v2 kommerziell nutzen?
Nein, nicht ohne separate kommerzielle Vereinbarung. XTTS v2 wird unter der Coqui Public Model License (CPML) veröffentlicht, die persönliche, Forschungs- und Hobby-Nutzung des Modells und seiner Audio-Ausgaben erlaubt, aber die kommerzielle Nutzung untersagt — jedes kostenpflichtige Produkt, SaaS, werbefinanzierte Inhalte oder Auftragsarbeit. Coqui Inc wurde im Januar 2024 geschlossen, daher gibt es derzeit kein Unternehmen, das XTTS-v2-Kommerzlizenzen verkauft; behandeln Sie XTTS v2 in der Praxis als ausschließlich nicht-kommerziell. Für kommerzielles Voice-Cloning verwenden Sie Tortoise (Apache 2.0) oder das Coqui-TTS-Toolkit auf einem VITS-Backend (MPL 2.0). Dies ist eine sachliche Referenz, keine Rechtsberatung — lesen Sie die CPML selbst, bevor Sie sie einsetzen.
Wie akzeptiere ich die Coqui-CPML-Lizenz nicht-interaktiv (Docker / CI)?
Setzen Sie die Umgebungsvariable COQUI_TOS_AGREED auf 1. Die Coqui-/XTTS-Bibliothek gibt normalerweise die CPML aus und wartet, bis Sie „y" eingeben, was in Docker-Builds, CI und Headless-Servern blockiert. Das Setzen von COQUI_TOS_AGREED=1 hält Ihre Zustimmung fest, sodass das Modell ohne die Eingabeaufforderung lädt. Verwenden Sie export COQUI_TOS_AGREED=1 in einer Shell oder einem CI-Schritt, ENV COQUI_TOS_AGREED=1 in einem Dockerfile oder `os.environ["COQUI_TOS_AGREED"] = "1"` in Python vor dem TTS()-Aufruf. Es unterdrückt nur die Eingabeaufforderung — es ist Ihre Zustimmung zur CPML und gewährt keine kommerziellen Rechte.
Wie viele Stimmen und Sprachen unterstützt XTTS v2?
XTTS v2 hat keinen festen Katalog benannter Stimmen — es ist ein Cloning-Modell, Sie liefern also einen 6-Sekunden-Referenzclip, und es reproduziert diesen Sprecher (das Repo liefert außerdem einige eingebaute Speaker-Presets für schnelle Tests). Es generiert Sprache in 17 Sprachen: Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Polnisch, Türkisch, Russisch, Niederländisch, Tschechisch, Arabisch, Chinesisch (zh-cn), Japanisch, Ungarisch, Koreanisch und Hindi. Das Cloning ist sprachübergreifend: Klonen Sie eine Stimme einmal und generieren Sie sie in jeder der 17 Sprachen.
Kokoro vs Piper — welches Leichtgewichts-CPU-TTS sollte ich verwenden?
Beide laufen schnell auf der CPU ohne GPU, und beide sind freizügig lizenziert (Piper ist MIT, Kokoro ist Apache 2.0), sodass beide für die kommerzielle Nutzung sicher sind. Wählen Sie Piper, wenn Sie die niedrigste Latenz und die breiteste Sprachabdeckung benötigen (20+ Sprach-Voice-Packs, Echtzeit auf einem Raspberry Pi 5) — es ist der Standard für Embedded- und Smart-Home-Sprache. Wählen Sie Kokoro (ein 82M-Parameter-Modell auf Basis der StyleTTS-2-Architektur), wenn Sie höhere Natürlichkeit als Piper wollen und etwas mehr Rechenaufwand akzeptieren können; seine englische Qualität liegt näher an den schwereren GPU-Engines. Für einen Raspberry Pi oder einen immer-aktiven Assistenten: Piper; für ein Desktop-/Server-Vorlesen, bei dem Qualität wichtiger ist als Millisekunden: Kokoro.
Quellen
- Piper TTS auf GitHub — Quellcode, Voice-Packs, ONNX-Modell-Downloads und Raspberry-Pi-Anleitung.
- Coqui TTS auf GitHub — Quellcode, Modelliste, Voice-Cloning-Dokumentation und Python-API-Referenz.
- XTTS v2 Dokumentation — XTTS v2 Modellkarte, Lizenz (CPML) und Voice-Cloning-API.
- F5-TTS auf GitHub — Flow-Matching-TTS mit Zero-Shot-Voice-Cloning, Installationsanleitung und mehrsprachiger Unterstützung.
- Tortoise TTS auf GitHub — Hochwertiges Multi-Voice-TTS mit Voice-Cloning, Apache 2.0-Lizenz. Sehr langsam, aber kommerziell-freundlich.
- XTTS-v2 LICENSE.txt (CPML) auf Hugging Face — Vollständiger Text der Coqui Public Model License, die XTTS v2 regelt.
TTS in Deutschland: DSGVO-konforme Sprachsynthese und deutsche Modelle
Deutschland hat mit 9,09% die höchste CTR aller lokalisierten Pfade auf dieser Seite — ein klares Signal, dass der deutschsprachige Markt nach offline-fähigen TTS-Lösungen sucht. Der Grund liegt in der DSGVO: Sprachsynthese für Kundenservice, Barrierefreiheit oder Content-Produktion darf keine Audio-Rohdaten an externe Server übermitteln.
Piper TTS bietet vollständige DSGVO-Compliance durch vollständige Offline-Verarbeitung. BSI Grundschutz-konforme Implementierungen sind mit lokalem TTS deutlich einfacher dokumentierbar als mit Cloud-APIs wie ElevenLabs oder Azure Speech.
- Piper DE-Modelle: Piper enthält mehrere deutsche Stimmen (de_DE-thorsten-low, de_DE-thorsten-medium, de_DE-eva_k-x_low). Thorsten-medium bietet das beste Verhältnis aus Natürlichkeit und Latenz auf Standard-Hardware (Intel Core i7, kein GPU nötig).
- XTTS v2 für Deutsch: Coqui XTTS v2 unterstützt Deutsch mit Zero-Shot Voice Cloning. Besonders nützlich für Audiobook-Produktion und barrierefreie Dokumente. GPU-Anforderung: mindestens 6 GB VRAM (RTX 3060 oder besser).
- DSGVO-Implementierungshinweis: Bei der Verarbeitung von Stimmdaten (Voice Cloning) gelten biometrische Datenschutzanforderungen nach DSGVO Art. 9. Reine Textsynthese (kein Cloning) ist datenschutzrechtlich unkritisch, sofern kein Personenbezug im Text besteht.
- NHK-Äquivalent für DE: ARD und ZDF veröffentlichen keine Stimmdaten für TTS. Für professionelle deutsche Stimmen: Thorsten-Voice-Projekt (GitHub, Open Source, CC BY 4.0) als Community-Alternative zu proprietären Stimmpaketen.
- Österreich und Schweiz: Standarddeutsch-Modelle funktionieren für beide Länder. Dialekte (Österreichisch, Schweizerdeutsch) werden von aktuellen Piper/XTTS-Modellen nicht unterstützt — Hochdeutsch-Ausgabe ist der Standardfall.