Lokale TTS 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2

Sechs lokale Text-to-Speech-Engines konkurrieren 2026 für verschiedene Anwendungsfälle: Piper für Geschwindigkeit auf CPU und Embedded-Hardware, Coqui TTS für eine Balance aus Qualität und Voice-Cloning, XTTS v2 für die beste Voice-Cloning-Qualität (6 Sekunden Referenzaudio → geklonte Stimme in 17 Sprachen), F5-TTS für Zero-Shot-Voice-Cloning mit einer neueren Flow-Matching-Architektur, Bark für kreative und generative Audioinhalte einschließlich Lachen und Musik, sowie StyleTTS 2 für nahezu menschliche Qualität bei englischen Narrationen. Dieser Leitfaden vergleicht alle sechs nach Qualität, Geschwindigkeit, VRAM-Anforderungen, Voice-Cloning-Fähigkeit, Mehrsprachigkeit und Lizenz.

Wichtigste Erkenntnisse

Piper ist die beste Wahl für Geschwindigkeit und Embedded-Anwendungen. Es läuft vollständig auf der CPU, erzeugt Echtzeit-Sprache auf einem Raspberry Pi 5 und unterstützt 20+ Sprachen über herunterladbare Voice-Packs. Keine GPU, keine Python-Komplexität, MIT-Lizenz.
XTTS v2 erzeugt die beste lokale Voice-Cloning-Qualität 2026. Geben Sie 6 Sekunden Referenzaudio ein und es klont die Stimme in 17 Sprachen. Benötigt 4–6 GB GPU-VRAM. Die CPML-Lizenz beschränkt die kommerzielle Nutzung — überprüfen Sie die Lizenz vor der Bereitstellung.
F5-TTS ist die schnell wachsende Alternative für Zero-Shot-Voice-Cloning. Es verwendet eine Flow-Matching-Architektur anstelle von GPT, klont eine Stimme aus ~3 Sekunden Referenzaudio und erzielt Qualität vergleichbar mit XTTS v2 bei schnellerem Inferenzen. Lizenz: CC-BY-NC-4.0 (nur nicht-kommerziell).
Coqui TTS ist das flexibelste Open-Source-TTS-Toolkit. Es unterstützt mehrere Backends (Tacotron2, VITS, XTTS), Voice-Cloning und 20+ Sprachen unter MIT 2.0-Lizenz. Hinweis: Das Coqui-Unternehmen wurde 2023 geschlossen; das Projekt wird nun von der Community gepflegt.
Bark ist die einzige lokale TTS, die nicht-sprachliche Audio generiert. Es kann Lachen, Husten, Seufzer, Musikschnipsel und Umgebungsgeräusche neben Sprache erzeugen — nützlich für kreative Audioinhalte, Podcast-Produktion und interaktive Fiktion. Die Ausgaben sind langsam und nicht-deterministisch.
StyleTTS 2 erreicht die höchsten MOS-Werte (Mean Opinion Score) aller Open-Source-englischen TTS-Engines. Sein diffusionsbasiertes Style-Transfer erzeugt fast-menschliche Natürlichkeit bei englischen Narrationen. Es unterstützt nur Englisch und hat kein Voice-Cloning.
Lizenz ist für die kommerzielle Nutzung entscheidend. Piper (MIT), Bark (MIT), StyleTTS 2 (MIT): uneingeschränkt kommerziell. Coqui (MPL 2.0): Kommerzielle Nutzung erlaubt mit Offenlegungsbedingungen. XTTS v2 (CPML): Kommerzielle Nutzung erfordert eine Lizenzvereinbarung. F5-TTS (CC-BY-NC-4.0): Kommerzielle Nutzung ohne separate Vereinbarung untersagt.
Keine entsprechen kommerzieller TTS-Qualität im großen Maßstab. ElevenLabs, Google Text-to-Speech und Azure TTS übertreffen lokale Engines immer noch bei Konsistenz, Natürlichkeit und Latenz. Lokale TTS ist die richtige Wahl, wenn Datenschutz, Kosten oder Offline-Betrieb wichtiger ist als absolute Qualität.

Kurzübersicht

Schnellstes lokales TTS: Piper — Echtzeit auf Raspberry Pi 5, ~10× schneller als Echtzeit auf modernem Desktop-CPU.
Beste Voice-Cloning-Qualität: XTTS v2 — 6 Sekunden Referenzaudio, sprachübergreifendes Cloning in 17 Sprachen.
Schnellstes Zero-Shot-Voice-Cloning (neuere Architektur): F5-TTS — ~3 Sekunden Audio, Flow-Matching, ~3–5× Echtzeit auf RTX 4070.
Flexibelstes Open-Source-Toolkit: Coqui TTS — unterstützt VITS, Tacotron2, XTTS-Backends, 20+ Sprachmodelle.
Einziges generatives Audio (Nicht-Sprach-Klänge): Bark — Lachen, Seufzer, Musik, Umgebungsgeräusche. Langsamstes von allen.
Beste englische Narrations-Qualität: StyleTTS 2 — diffusionsbasiertes Style-Transfer, nahezu menschlicher MOS auf dem LJSpeech-Benchmark.
VRAM-Anforderungen: Piper: nur CPU. Kokoro: CPU / 1–2 GB. StyleTTS 2: 2–4 GB. Coqui VITS: 2–4 GB. F5-TTS: 3–5 GB. XTTS v2: 4–6 GB. Bark: 4–8 GB.

Warum lokales TTS wichtig ist

Cloud-TTS-Dienste (ElevenLabs, Google TTS, Amazon Polly, Azure Speech) sind bequem, aber sie bringen zeichenbasierte Abrechnung, Aufbewahrungsrichtlinien für Audiodaten und Latenz durch Netzwerk-Roundtrips mit sich. Lokales TTS eliminiert alle drei Nachteile.

Datenschutz: Ihr Textinhalt verlässt niemals Ihren Computer. Kritisch für medizinische Diktate, rechtliche Zusammenfassungen, private Tagebuchnarration oder vertrauliches Vorlesen von Dokumenten.
Kosten: Cloud-TTS-Preise liegen typischerweise bei 4–30 € pro Million Zeichen. Ein Entwickler, der 10 Millionen Zeichen pro Monat generiert, spart 40–300 €/Monat mit einem einmaligen lokalen Setup.
Latenz: Kein Netzwerk-Roundtrip. Piper generiert das erste Audio-Token in unter 50 ms auf der CPU — schneller als jeder Cloud-TTS-Roundtrip.
Anpassung: Voice-Cloning (XTTS v2, F5-TTS, Coqui) ermöglicht die Erstellung einer eigenen Stimme aus wenigen Sekunden Audio. Cloud-Anbieter berechnen 10 €+/Monat pro geklonter Stimme.
Offline-Betrieb: Funktioniert in Flugzeugen, in gesicherten Einrichtungen, in abgelegenen Gebieten ohne Internet. Eingebettete Sprach-UI für Kioske und Geräte.

Direkter Vergleich

Alle lokalen TTS-Engines im Vergleich anhand der wichtigsten Metriken für den Produktionseinsatz.

📍 In einem Satz

Piper ist am schnellsten auf der CPU; XTTS v2 bietet die beste Voice-Cloning-Qualität; F5-TTS ermöglicht Zero-Shot-Cloning mit einer neueren Architektur; Bark ist die einzige Engine, die Lachen und Musik erzeugt; StyleTTS 2 hat die beste englische Narrations-Natürlichkeit.

💬 In einfachen Worten

Für die meisten Offline-TTS-Anforderungen: Piper für Geschwindigkeit und Einfachheit, Coqui für Voice-Cloning mit einer freizügigen Lizenz, XTTS v2 für beste Cloning-Qualität mit GPU, F5-TTS für eine neuere Architektur mit schnellerem Zero-Shot-Cloning.

Tool	Qualität	Geschwindigkeit	Voice-Cloning	Mehrsprachig	VRAM	Lizenz	MOS (Englisch)
Piper	Gut	Sehr schnell (CPU)	Nein	Ja (20+ Sprachen)	Nur CPU	MIT	~3,5
Kokoro	Sehr gut	Schnell (CPU)	Nein	Englisch + wachsend	CPU / 1–2 GB	Apache 2.0	~4,0
Coqui TTS	Sehr gut	Mittel	Ja	Ja (20+ Sprachen)	2–4 GB	MPL 2.0	~3,8
XTTS v2	Ausgezeichnet	Langsam	Ja (beste)	Ja (17 Sprachen)	4–6 GB	CPML (kommerziell eingeschränkt)	~4,1
F5-TTS	Ausgezeichnet	Mittel-schnell	Ja (Zero-Shot)	Ja (mehrsprachig)	3–5 GB	CC-BY-NC-4.0	~4,1
Bark	Einzigartig / variabel	Langsam	Begrenzt	Ja (mehrsprachig)	4–8 GB	MIT	~3,2–4,0 (variabel)
StyleTTS 2	Ausgezeichnet (Englisch)	Mittel	Nein	Hauptsächlich Englisch	2–4 GB	MIT	~4,3

MOS (Mean Opinion Score) auf einer Skala von 1–5, wobei 5 nicht von menschlicher Sprache zu unterscheiden ist. Werte sind näherungsweise und basieren auf veröffentlichten Benchmarks oder Community-Evaluierungen. MOS variiert erheblich je nach Testsatz und Zuhörerpool. Menschlicher Referenz-MOS: ~4,5.

Erster-Audio-Latenz-Vergleich

Die Erster-Audio-Latenz ist die Zeit von der Texteingabe bis zur ersten hörbaren Ausgabe. Kritisch für Sprach-Assistenten und interaktive Anwendungen. Bei der Stapelverarbeitung (Hörbücher, Podcast-Produktion) ist der Gesamtdurchsatz wichtiger als die Erster-Audio-Latenz.

Engine	Erstes Audio (RTX 4070)	Erstes Audio (CPU)	Erstes Audio (M5 Pro)
Piper	~30 ms	~50 ms	~40 ms
Kokoro	~50 ms	~80 ms	~60 ms
Coqui VITS	~100 ms	~300 ms	~150 ms
StyleTTS 2	~150 ms	~500 ms	~200 ms
F5-TTS	~200 ms	~800 ms	~300 ms
XTTS v2	~300 ms	~1500 ms	~500 ms
Bark	~500 ms	~3000 ms	~800 ms

Piper TTS — Schnellste Leichtgewichts-Option

Piper ist ein schnelles, lokales Text-to-Speech-System, das von Rhasspy für Heimautomatisierung und Embedded-Anwendungen entwickelt wurde. Es verwendet eine VITS-basierte neuronale Architektur, die auf Sprachdatensätzen mit einem onnxruntime-Backend trainiert wurde — optimiert für den Echtzeit-Betrieb auf einem Raspberry Pi 4 oder 5 ohne GPU.

Architektur: VITS neuronales TTS mit ONNX-Inferenz. Entwickelt für Einplatinencomputer und Embedded Linux.
Installation: pip install piper-tts. Vortrainierte Voice-Packs sind im Piper-Voices-Repository auf Hugging Face verfügbar.
Verwendung: echo "Hallo, Welt" | piper --model de_DE-thorsten-medium.onnx --output_file ausgabe.wav
Voice-Packs: 20+ Sprachen, mehrere Voice-Optionen pro Sprache. Jedes Voice-Pack ist eine 20–200 MB große ONNX-Modelldatei.
Geschwindigkeit: ~10× schneller als Echtzeit auf einem modernen Desktop-CPU. Echtzeit auf Raspberry Pi 5. Unter-50-ms-Erster-Audio-Latenz.
Apple Silicon: ~15× Echtzeit auf M5 Pro (CPU, ARM NEON). Läuft nativ ohne GPU — ausgezeichnete Leistung auf Mac.
Beispiele anhören: Piper Voice-Samples
Am besten für: Heimassistenten, Kiosk-Geräte, Embedded-Sprach-UI, datenschutzsensitives Vorlesen ohne verfügbare GPU.
Einschränkung: Kein Voice-Cloning. Qualität ist „gut" — natürlich klingend, aber klar synthetisch im Vergleich zu XTTS v2 oder StyleTTS 2.
Lizenz: MIT — vollständig kommerziell, keine Einschränkungen.
Kokoro TTS — Piper-Alternative: Kokoro TTS ist eine aufkommende Alternative zu Piper in der Leichtgewichts-Kategorie. Es erreicht höhere Natürlichkeit als Piper und bleibt dabei schnell auf der CPU. Lizenziert unter Apache 2.0. Wenn Pipers Qualität Ihre Anforderungen nicht erfüllt, Sie sich aber keine GPU-VRAM leisten können, ist Kokoro einen Test wert.

Coqui TTS — Bestes Open-Source-Allround-Toolkit

Coqui TTS ist ein Python-Toolkit für Text-to-Speech, das mehrere Modellarchitekturen und Voice-Cloning unterstützt. Es wurde vom Coqui-Unternehmen entwickelt (das Ende 2023 aufgehört hat) und wird jetzt von der Open-Source-Community gepflegt. Das Toolkit unterstützt Tacotron2-, VITS- und XTTS-Backends.

Installation: pip install TTS. Modelle werden beim ersten Gebrauch automatisch heruntergeladen.
Voice-Cloning: Geben Sie 6+ Sekunden Referenzaudio an. tts --text "Hallo" --model_name tts_models/de/thorsten/tacotron2-DDC --speaker_wav beispiel.wav --out_path ausgabe.wav
Backend-Optionen: VITS (schnellste, gute Qualität), Tacotron2 (älter, langsamer), XTTS (beste Qualität, siehe XTTS v2-Abschnitt).
Sprachen: 20+ Sprachmodelle verfügbar über tts --list_models.
VRAM: 2–4 GB für VITS-Backend; 4–6 GB für XTTS-Backend.
Apple Silicon: ~8× Echtzeit auf M5 Pro (CPU). Keine Metal-GPU-Beschleunigung. Für Stapelgenerierung verwendbar.
Community-Status: Coqui Inc schloss Ende 2023. Das Open-Source-Repo (coqui-ai/TTS) wird von der Community gepflegt. Kein aktiver kommerzieller Support.
Lizenz: MPL 2.0 — Kommerzielle Nutzung erlaubt, aber Quellcode von Änderungen muss offengelegt werden.
Am besten für: Entwickler, die Voice-Cloning mit einem Open-Source-Toolkit und einer freizügigen Lizenz wollen.

XTTS v2 — Beste Voice-Cloning-Qualität

XTTS v2 (von Coqui) ist die hochwertigste lokal verfügbare Voice-Cloning-Engine im Jahr 2026. Es verwendet eine GPT-basierte Architektur mit sprachübergreifendem Transfer — klonen Sie eine Stimme auf Englisch und sprechen Sie sie auf Spanisch, Deutsch, Französisch oder 14 anderen Sprachen aus denselben 6 Sekunden Audio.

Architektur: GPT-basiertes TTS mit Speaker-Conditioning. Vision-Transformer für Prosodie-Modellierung.
Voice-Cloning: 6 Sekunden Referenzaudio sind ausreichend für ein überzeugendes Voice-Cloning. 3 Sekunden erzeugen passable Qualität.
Sprachübergreifendes Cloning: Stimme in einer Sprache klonen, Sprache in 17 verschiedenen Sprachen mit denselben Stimm-Charakteristiken generieren.
VRAM: 4–6 GB GPU empfohlen. Läuft auf CPU, aber ~5–10× langsamer.
Geschwindigkeit: Langsam — generiert ~2× Echtzeit auf einem RTX 4070. Nicht geeignet für Echtzeit-Sprach-Assistenten-Pipelines.
Apple Silicon: ~3× Echtzeit auf M5 Pro (CPU, keine Metal-Beschleunigung). Für Stapel-Audio-Generierung verwendbar, nicht für Echtzeit-Sprach-Assistenten-Ausgabe.
Lizenz: CPML (Coqui Public Model License). Kostenlos für Forschung und persönliche Nutzung. Kommerzielle Nutzung erfordert eine Lizenzvereinbarung.

python

from TTS.api import TTS

# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
    text="Bonjour, je suis votre assistant vocal.",
    speaker_wav="reference_voice.wav",   # 6+ seconds of the target speaker
    language="fr",                        # Output in French using the cloned voice
    file_path="output.wav"
)

⚠️Warning: XTTS v2 unterliegt der CPML-Lizenz. Die kommerzielle Nutzung — einschließlich in Produkten, SaaS-Anwendungen oder Diensten — erfordert eine kommerzielle Lizenzvereinbarung. Prüfen Sie die Lizenzbedingungen vor der Bereitstellung.

Bark — Generatives Audio jenseits von Sprache

Bark (von Suno AI) ist ein generatives Text-to-Audio-Modell, das Sprache, Musik, Lachen, Husten, Seufzer und Umgebungsgeräusche aus Textprompts erzeugt. Es ist kein traditionelles TTS-System — es ist ein generatives Modell, das Textprompts als Audiogenerierungs-Anweisungen interpretiert.

Einzigartige Fähigkeit: Fügen Sie `[laughs], [sighs], [clears throat], [music] oder [sound effect: wind]` in Ihren Text ein und Bark generiert diese Klänge neben der Sprache.
Nicht steuerbar wie traditionelles TTS: Die Ausgabe variiert zwischen Durchläufen für dieselbe Eingabe. Die Qualität ist inkonsistent — manche Ausgaben sind ausgezeichnet, andere haben Artefakte oder unverständliche Segmente.
Geschwindigkeit: Langsam — 2–4× langsamer als Echtzeit selbst auf einem RTX 4090. Nicht geeignet für interaktive Anwendungen.
Apple Silicon: ~1,5× Echtzeit auf M5 Pro (CPU, MPS partiell). MPS (Metal Performance Shaders)-Unterstützung ist partiell — die meiste Inferenz fällt weiterhin auf CPU zurück.
Am besten für: Kreatives Audio, Podcast-Produktion mit Soundeffekten, interaktive Fiktion, experimentelle Sprach-Anwendungen.
VRAM: 4–8 GB GPU. Läuft auf CPU mit deutlich niedrigerer Qualität.
Installation: pip install suno-bark. Modelle werden beim ersten Ausführen heruntergeladen (~2 GB).
Lizenz: MIT — vollständig kommerziell.
Einschränkung: Kein zuverlässiges Voice-Cloning. Die mit Bark gebündelten „Voice-Presets" sind näherungsweise — kein echtes Voice-Cloning-System.

StyleTTS 2 — Höchste natürliche Qualität

StyleTTS 2 ist ein diffusionsbasiertes TTS-Modell, das nahezu menschliche Mean Opinion Scores (MOS) auf dem LJSpeech-Benchmark erreicht. Es überträgt den Sprechstil mittels Diffusion — generiert Sprache, die natürlicher und ausdrucksvoller ist als VITS-basierte Modelle.

Architektur: Diffusionsbasiertes Style-Transfer. Sampling aus einer gelernten Verteilung von Sprechstilen statt deterministischer Zuordnung von Text zu Audio.
Qualität: Höchste MOS-Werte aller Open-Source-englischen TTS-Engines auf dem LJSpeech-Benchmark.
Am besten für: Hörbuch-Narration, professionellen Voiceover, Podcast-Produktion.
Installation: GitHub-Repo klonen, Anforderungen installieren (pip install -r requirements.txt), Modell-Checkpoints herunterladen (~500 MB).
Sprachunterstützung: Hauptsächlich Englisch. Nicht empfohlen für Nicht-Englisch-Verwendung.
Voice-Cloning: Nicht unterstützt. StyleTTS 2 generiert nur in trainierten Speaker-Stimmen.
VRAM: 2–4 GB GPU. Schneller als XTTS v2 bei ~5–8× Echtzeit auf RTX 4070.
Apple Silicon: ~6× Echtzeit auf M5 Pro (CPU). Keine Metal-Beschleunigung.
Lizenz: MIT — vollständig kommerziell.

F5-TTS — Zero-Shot-Voice-Cloning, vollständig offen

F5-TTS ist ein Flow-Matching-basiertes TTS-Modell mit Zero-Shot-Voice-Cloning — klonen Sie jede Stimme aus ~3 Sekunden Referenzaudio ohne Fine-Tuning.

Architektur: Flow-Matching (ein Diffusions-Varianten-Ansatz) statt GPT-basierter Architektur wie bei XTTS v2. Typischerweise schnellere Inferenz mit vergleichbarer Qualität.
Voice-Cloning: ~3 Sekunden Referenzaudio sind ausreichend. Kein Fine-Tuning erforderlich.
Qualität: Vergleichbar mit XTTS v2 auf Englisch. MOS-Werte ~4,1 in Community-Evaluierungen.
Geschwindigkeit: ~3–5× Echtzeit auf RTX 4070 — schneller als XTTS v2.
Sprachen: Starke Unterstützung für Englisch und Chinesisch, mit wachsender Unterstützung für weitere Sprachen.
Apple Silicon: ~2× Echtzeit auf M5 Pro (CPU). Derzeit keine Metal-Beschleunigung.
VRAM: 3–5 GB GPU empfohlen.
Installation: pip install f5-tts oder von GitHub klonen.
Lizenz: CC-BY-NC-4.0 — nur nicht-kommerziell. Kommerzielle Nutzung erfordert eine separate Vereinbarung.

Lizenzübersicht — Wichtig für kommerzielle Nutzung

Lizenzbedingungen sind für den Produktionseinsatz entscheidend.

Tool	Lizenz	Kommerziell erlaubt?	Hauptbedingung
Piper	MIT	Ja — keine Einschränkungen	MIT-Copyright-Hinweis angeben
Kokoro	Apache 2.0	Ja — keine Einschränkungen	Apache 2.0-Hinweis angeben
Coqui TTS	MPL 2.0	Ja — mit Bedingungen	Quellcode von Änderungen muss offengelegt werden
XTTS v2	CPML	Nur Forschung / persönlich	Kommerzielle Nutzung erfordert Lizenzvereinbarung
F5-TTS	CC-BY-NC-4.0	Nur nicht-kommerziell	Kommerzielle Nutzung ohne separate Vereinbarung verboten
Bark	MIT	Ja — keine Einschränkungen	MIT-Copyright-Hinweis angeben
StyleTTS 2	MIT	Ja — keine Einschränkungen	MIT-Copyright-Hinweis angeben

📌Note: Coqui TTS (das Toolkit, MPL 2.0) und XTTS v2 (das spezifische Modell, CPML) haben unterschiedliche Lizenzen. Sie können das Coqui TTS-Toolkit mit VITS- oder Tacotron2-Backends unter MPL 2.0 in kommerziellen Produkten verwenden. Die CPML-Einschränkung gilt speziell für die XTTS v2-Modellgewichte.

Lokales TTS im Vergleich zu ElevenLabs und Cloud-TTS

ElevenLabs, Google Text-to-Speech und Azure Speech bleiben die Qualitätsgrenze für TTS im Jahr 2026.

Qualitätsgrenze: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper.
Latenz: Piper lokal (~30–50 ms erstes Audio) ist schneller als jeder ElevenLabs-API-Roundtrip (~300–500 ms).
Kosten: ElevenLabs berechnet 5–99 €/Monat nach Tarif. Lokales TTS kostet 0 € nach einmaliger Hardware.
Voice-Cloning: ElevenLabs Instant Voice Clone ≈ XTTS v2 Qualität. ElevenLabs Professional Voice Clone übertrifft jede lokale Engine.
Datenschutz: Lokales TTS = keine Audiodaten werden irgendwohin gesendet. ElevenLabs = Audio wird auf deren Servern verarbeitet.
Offline-Fähigkeit: Lokal = vollständig offline. ElevenLabs = benötigt Internet.
Wann Cloud verwenden: Professionelle Voiceover-Produktion, kundenseitige Produkte, die höchste Qualität erfordern.
Wann lokal verwenden: Datenschutzkritisches Audio, Embedded-Geräte, kostensensible Stapelverarbeitung, Offline-Umgebungen.

Wie Sie wählen

Ein Entscheidungsdiagramm von Ihrer Anforderung zur richtigen TTS-Engine:

📍 In einem Satz

Voice-Cloning benötigt? → XTTS v2 (beste Qualität) oder F5-TTS (schneller, neuere Architektur) oder Coqui TTS (offene Lizenz). CPU-Geschwindigkeit benötigt? → Piper. Kreatives Audio benötigt? → Bark. Beste englische Qualität benötigt? → StyleTTS 2.

💬 In einfachen Worten

Voice-Cloning: XTTS v2 für Qualität, F5-TTS für Geschwindigkeit, Coqui VITS für freizügige Lizenz. CPU/Raspberry Pi: nur Piper. Podcast-Soundeffekte: Bark. Englische Hörbücher: StyleTTS 2.

Voice-Cloning benötigt? → XTTS v2 (beste Qualität, CPML) oder F5-TTS (neuere Architektur, schneller, CC-BY-NC-4.0) oder Coqui VITS (gute Qualität, MPL 2.0). Kein Cloning benötigt: Piper (Geschwindigkeit) oder StyleTTS 2 (Qualität).
Nur CPU / Raspberry Pi benötigt? → Nur Piper. Kokoro ist eine hochwertigere CPU-Alternative (Apache 2.0). Alle anderen Engines benötigen GPU.
Kreatives Audio mit Nicht-Sprach-Klängen benötigt? → Bark. Keine andere lokale Engine erzeugt nativ Lachen, Seufzer oder Musik.
Beste englische Narrations-Qualität benötigt? → StyleTTS 2.
Mehrsprachige Unterstützung benötigt? → XTTS v2 (17 Sprachen), Coqui (20+), Piper (20+ Packs).
Vollständig kommerzielle MIT-Lizenz benötigt? → Piper, Bark oder StyleTTS 2.
Sprach-Assistenten-Pipeline aufbauen? → Piper für Niedrig-Latenz-TTS-Ausgabe.

Häufig gestellte Fragen

Wie viel Referenz-Audio benötige ich für Voice-Cloning mit XTTS v2?

XTTS v2 benötigt mindestens 3 Sekunden sauberes Referenzaudio, wobei 6+ Sekunden deutlich bessere Ergebnisse geben. Das Audio muss ein einzelner Sprecher mit minimalem Hintergrundgeräusch und ohne Musik sein. Higher-Quality-Quellmaterial erzeugt bessere Klone als komprimiertes Audio.

Kann ich Piper TTS in einem kommerziellen Produkt verwenden?

Ja. Piper ist unter der MIT-Lizenz lizenziert, die unbegrenzte kommerzielle Nutzung gestattet. Sie müssen die MIT-Lizenznotiz in Ihrem Produkt angeben. Die Voice-Modelle (ONNX-Dateien) können separate Lizenzen pro Voice haben.

Muss ich bei der Verwendung von lokalen TTS-Engines die DSGVO beachten?

Lokale TTS-Engines, die vollständig offline laufen, verursachen per Design keine DSGVO-Probleme für interne Nutzung — da keine persönlichen Daten Ihre Systeme verlassen, ist keine Datenverarbeitungsvereinbarung erforderlich. Überprüfen Sie jedoch Ihre lokale Speicherung: Wenn Ihr Orchestrator Gesprächsverlauf oder Audio-Dateien speichert, unterliegen diese Speicher den Aufbewahrungsanforderungen (DSGVO Artikel 5). Verwenden Sie kurzlebigen In-Memory-Speicher oder verschlüsselt lokalen Speicher mit angemessenen Aufbewahrungsrichtlinien.

Ist lokale TTS für den deutschen Mittelstand geeignet?

Ja. Für kleine und mittlere Unternehmen (KMU) bietet lokale TTS Kosten-Effizienz, Datenschutz und Compliance mit BSI-Grundschutz-Standards. Piper ist ideal für einfache Automatisierung und Customer-Service-Anwendungen. Coqui TTS oder XTTS v2 eignen sich für anspruchsvollere Voice-Cloning-Anforderungen in Finanz-, Rechts- oder Gesundheitskontexten.

Quellen

Piper TTS auf GitHub — Quellcode, Voice-Packs, ONNX-Modell-Downloads und Raspberry-Pi-Anleitung.
Coqui TTS auf GitHub — Quellcode, Modelliste, Voice-Cloning-Dokumentation und Python-API-Referenz.
XTTS v2 Dokumentation — XTTS v2 Modellkarte, Lizenz (CPML) und Voice-Cloning-API.
F5-TTS auf GitHub — Flow-Matching-TTS mit Zero-Shot-Voice-Cloning, Installationsanleitung und mehrsprachiger Unterstützung.

Lokale Text-to-Speech und Voice-Cloning 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2