PromptQuorumPromptQuorum
Startseite/Power Local LLM/Lokale Text-to-Speech und Voice-Cloning 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2
Voice, Speech & Multimodal

Lokale Text-to-Speech und Voice-Cloning 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2

·16 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Sechs lokale Text-to-Speech-Engines konkurrieren 2026 für verschiedene Anwendungsfälle: Piper für Geschwindigkeit auf CPU und Embedded-Hardware, Coqui TTS für eine Balance aus Qualität und Voice-Cloning, XTTS v2 für die beste Voice-Cloning-Qualität (6 Sekunden Referenzaudio → geklonte Stimme in 17 Sprachen), F5-TTS für Zero-Shot-Voice-Cloning mit einer neueren Flow-Matching-Architektur, Bark für kreative und generative Audioinhalte einschließlich Lachen und Musik, sowie StyleTTS 2 für nahezu menschliche Qualität bei englischen Narrationen. Dieser Leitfaden vergleicht alle sechs nach Qualität, Geschwindigkeit, VRAM-Anforderungen, Voice-Cloning-Fähigkeit, Mehrsprachigkeit und Lizenz.

Wichtigste Erkenntnisse

  • Piper ist die beste Wahl für Geschwindigkeit und Embedded-Anwendungen. Es läuft vollständig auf der CPU, erzeugt Echtzeit-Sprache auf einem Raspberry Pi 5 und unterstützt 20+ Sprachen über herunterladbare Voice-Packs. Keine GPU, keine Python-Komplexität, MIT-Lizenz.
  • XTTS v2 erzeugt die beste lokale Voice-Cloning-Qualität 2026. Geben Sie 6 Sekunden Referenzaudio ein und es klont die Stimme in 17 Sprachen. Benötigt 4–6 GB GPU-VRAM. Die CPML-Lizenz beschränkt die kommerzielle Nutzung — überprüfen Sie die Lizenz vor der Bereitstellung.
  • F5-TTS ist die schnell wachsende Alternative für Zero-Shot-Voice-Cloning. Es verwendet eine Flow-Matching-Architektur anstelle von GPT, klont eine Stimme aus ~3 Sekunden Referenzaudio und erzielt Qualität vergleichbar mit XTTS v2 bei schnellerem Inferenzen. Lizenz: CC-BY-NC-4.0 (nur nicht-kommerziell).
  • Coqui TTS ist das flexibelste Open-Source-TTS-Toolkit. Es unterstützt mehrere Backends (Tacotron2, VITS, XTTS), Voice-Cloning und 20+ Sprachen unter MIT 2.0-Lizenz. Hinweis: Das Coqui-Unternehmen wurde 2023 geschlossen; das Projekt wird nun von der Community gepflegt.
  • Bark ist die einzige lokale TTS, die nicht-sprachliche Audio generiert. Es kann Lachen, Husten, Seufzer, Musikschnipsel und Umgebungsgeräusche neben Sprache erzeugen — nützlich für kreative Audioinhalte, Podcast-Produktion und interaktive Fiktion. Die Ausgaben sind langsam und nicht-deterministisch.
  • StyleTTS 2 erreicht die höchsten MOS-Werte (Mean Opinion Score) aller Open-Source-englischen TTS-Engines. Sein diffusionsbasiertes Style-Transfer erzeugt fast-menschliche Natürlichkeit bei englischen Narrationen. Es unterstützt nur Englisch und hat kein Voice-Cloning.
  • Lizenz ist für die kommerzielle Nutzung entscheidend. Piper (MIT), Bark (MIT), StyleTTS 2 (MIT): uneingeschränkt kommerziell. Coqui (MPL 2.0): Kommerzielle Nutzung erlaubt mit Offenlegungsbedingungen. XTTS v2 (CPML): Kommerzielle Nutzung erfordert eine Lizenzvereinbarung. F5-TTS (CC-BY-NC-4.0): Kommerzielle Nutzung ohne separate Vereinbarung untersagt.
  • Keine entsprechen kommerzieller TTS-Qualität im großen Maßstab. ElevenLabs, Google Text-to-Speech und Azure TTS übertreffen lokale Engines immer noch bei Konsistenz, Natürlichkeit und Latenz. Lokale TTS ist die richtige Wahl, wenn Datenschutz, Kosten oder Offline-Betrieb wichtiger ist als absolute Qualität.

Kurzübersicht

  • Schnellstes lokales TTS: Piper — Echtzeit auf Raspberry Pi 5, ~10× schneller als Echtzeit auf modernem Desktop-CPU.
  • Beste Voice-Cloning-Qualität: XTTS v2 — 6 Sekunden Referenzaudio, sprachübergreifendes Cloning in 17 Sprachen.
  • Schnellstes Zero-Shot-Voice-Cloning (neuere Architektur): F5-TTS — ~3 Sekunden Audio, Flow-Matching, ~3–5× Echtzeit auf RTX 4070.
  • Flexibelstes Open-Source-Toolkit: Coqui TTS — unterstützt VITS, Tacotron2, XTTS-Backends, 20+ Sprachmodelle.
  • Einziges generatives Audio (Nicht-Sprach-Klänge): Bark — Lachen, Seufzer, Musik, Umgebungsgeräusche. Langsamstes von allen.
  • Beste englische Narrations-Qualität: StyleTTS 2 — diffusionsbasiertes Style-Transfer, nahezu menschlicher MOS auf dem LJSpeech-Benchmark.
  • VRAM-Anforderungen: Piper: nur CPU. Kokoro: CPU / 1–2 GB. StyleTTS 2: 2–4 GB. Coqui VITS: 2–4 GB. F5-TTS: 3–5 GB. XTTS v2: 4–6 GB. Bark: 4–8 GB.

Warum lokales TTS wichtig ist

Cloud-TTS-Dienste (ElevenLabs, Google TTS, Amazon Polly, Azure Speech) sind bequem, aber sie bringen zeichenbasierte Abrechnung, Aufbewahrungsrichtlinien für Audiodaten und Latenz durch Netzwerk-Roundtrips mit sich. Lokales TTS eliminiert alle drei Nachteile.

  • Datenschutz: Ihr Textinhalt verlässt niemals Ihren Computer. Kritisch für medizinische Diktate, rechtliche Zusammenfassungen, private Tagebuchnarration oder vertrauliches Vorlesen von Dokumenten.
  • Kosten: Cloud-TTS-Preise liegen typischerweise bei 4–30 € pro Million Zeichen. Ein Entwickler, der 10 Millionen Zeichen pro Monat generiert, spart 40–300 €/Monat mit einem einmaligen lokalen Setup.
  • Latenz: Kein Netzwerk-Roundtrip. Piper generiert das erste Audio-Token in unter 50 ms auf der CPU — schneller als jeder Cloud-TTS-Roundtrip.
  • Anpassung: Voice-Cloning (XTTS v2, F5-TTS, Coqui) ermöglicht die Erstellung einer eigenen Stimme aus wenigen Sekunden Audio. Cloud-Anbieter berechnen 10 €+/Monat pro geklonter Stimme.
  • Offline-Betrieb: Funktioniert in Flugzeugen, in gesicherten Einrichtungen, in abgelegenen Gebieten ohne Internet. Eingebettete Sprach-UI für Kioske und Geräte.

Direkter Vergleich

Alle lokalen TTS-Engines im Vergleich anhand der wichtigsten Metriken für den Produktionseinsatz.

📍 In einem Satz

Piper ist am schnellsten auf der CPU; XTTS v2 bietet die beste Voice-Cloning-Qualität; F5-TTS ermöglicht Zero-Shot-Cloning mit einer neueren Architektur; Bark ist die einzige Engine, die Lachen und Musik erzeugt; StyleTTS 2 hat die beste englische Narrations-Natürlichkeit.

💬 In einfachen Worten

Für die meisten Offline-TTS-Anforderungen: Piper für Geschwindigkeit und Einfachheit, Coqui für Voice-Cloning mit einer freizügigen Lizenz, XTTS v2 für beste Cloning-Qualität mit GPU, F5-TTS für eine neuere Architektur mit schnellerem Zero-Shot-Cloning.

ToolQualitätGeschwindigkeitVoice-CloningMehrsprachigVRAMLizenzMOS (Englisch)
PiperGutSehr schnell (CPU)NeinJa (20+ Sprachen)Nur CPUMIT~3,5
KokoroSehr gutSchnell (CPU)NeinEnglisch + wachsendCPU / 1–2 GBApache 2.0~4,0
Coqui TTSSehr gutMittelJaJa (20+ Sprachen)2–4 GBMPL 2.0~3,8
XTTS v2AusgezeichnetLangsamJa (beste)Ja (17 Sprachen)4–6 GBCPML (kommerziell eingeschränkt)~4,1
F5-TTSAusgezeichnetMittel-schnellJa (Zero-Shot)Ja (mehrsprachig)3–5 GBCC-BY-NC-4.0~4,1
BarkEinzigartig / variabelLangsamBegrenztJa (mehrsprachig)4–8 GBMIT~3,2–4,0 (variabel)
StyleTTS 2Ausgezeichnet (Englisch)MittelNeinHauptsächlich Englisch2–4 GBMIT~4,3

MOS (Mean Opinion Score) auf einer Skala von 1–5, wobei 5 nicht von menschlicher Sprache zu unterscheiden ist. Werte sind näherungsweise und basieren auf veröffentlichten Benchmarks oder Community-Evaluierungen. MOS variiert erheblich je nach Testsatz und Zuhörerpool. Menschlicher Referenz-MOS: ~4,5.

Erster-Audio-Latenz-Vergleich

Die Erster-Audio-Latenz ist die Zeit von der Texteingabe bis zur ersten hörbaren Ausgabe. Kritisch für Sprach-Assistenten und interaktive Anwendungen. Bei der Stapelverarbeitung (Hörbücher, Podcast-Produktion) ist der Gesamtdurchsatz wichtiger als die Erster-Audio-Latenz.

EngineErstes Audio (RTX 4070)Erstes Audio (CPU)Erstes Audio (M5 Pro)
Piper~30 ms~50 ms~40 ms
Kokoro~50 ms~80 ms~60 ms
Coqui VITS~100 ms~300 ms~150 ms
StyleTTS 2~150 ms~500 ms~200 ms
F5-TTS~200 ms~800 ms~300 ms
XTTS v2~300 ms~1500 ms~500 ms
Bark~500 ms~3000 ms~800 ms

Piper TTS — Schnellste Leichtgewichts-Option

Piper ist ein schnelles, lokales Text-to-Speech-System, das von Rhasspy für Heimautomatisierung und Embedded-Anwendungen entwickelt wurde. Es verwendet eine VITS-basierte neuronale Architektur, die auf Sprachdatensätzen mit einem onnxruntime-Backend trainiert wurde — optimiert für den Echtzeit-Betrieb auf einem Raspberry Pi 4 oder 5 ohne GPU.

  • Architektur: VITS neuronales TTS mit ONNX-Inferenz. Entwickelt für Einplatinencomputer und Embedded Linux.
  • Installation: pip install piper-tts. Vortrainierte Voice-Packs sind im Piper-Voices-Repository auf Hugging Face verfügbar.
  • Verwendung: echo "Hallo, Welt" | piper --model de_DE-thorsten-medium.onnx --output_file ausgabe.wav
  • Voice-Packs: 20+ Sprachen, mehrere Voice-Optionen pro Sprache. Jedes Voice-Pack ist eine 20–200 MB große ONNX-Modelldatei.
  • Geschwindigkeit: ~10× schneller als Echtzeit auf einem modernen Desktop-CPU. Echtzeit auf Raspberry Pi 5. Unter-50-ms-Erster-Audio-Latenz.
  • Apple Silicon: ~15× Echtzeit auf M5 Pro (CPU, ARM NEON). Läuft nativ ohne GPU — ausgezeichnete Leistung auf Mac.
  • Beispiele anhören: Piper Voice-Samples
  • Am besten für: Heimassistenten, Kiosk-Geräte, Embedded-Sprach-UI, datenschutzsensitives Vorlesen ohne verfügbare GPU.
  • Einschränkung: Kein Voice-Cloning. Qualität ist „gut" — natürlich klingend, aber klar synthetisch im Vergleich zu XTTS v2 oder StyleTTS 2.
  • Lizenz: MIT — vollständig kommerziell, keine Einschränkungen.
  • Kokoro TTS — Piper-Alternative: Kokoro TTS ist eine aufkommende Alternative zu Piper in der Leichtgewichts-Kategorie. Es erreicht höhere Natürlichkeit als Piper und bleibt dabei schnell auf der CPU. Lizenziert unter Apache 2.0. Wenn Pipers Qualität Ihre Anforderungen nicht erfüllt, Sie sich aber keine GPU-VRAM leisten können, ist Kokoro einen Test wert.

Coqui TTS — Bestes Open-Source-Allround-Toolkit

Coqui TTS ist ein Python-Toolkit für Text-to-Speech, das mehrere Modellarchitekturen und Voice-Cloning unterstützt. Es wurde vom Coqui-Unternehmen entwickelt (das Ende 2023 aufgehört hat) und wird jetzt von der Open-Source-Community gepflegt. Das Toolkit unterstützt Tacotron2-, VITS- und XTTS-Backends.

  • Installation: pip install TTS. Modelle werden beim ersten Gebrauch automatisch heruntergeladen.
  • Voice-Cloning: Geben Sie 6+ Sekunden Referenzaudio an. tts --text "Hallo" --model_name tts_models/de/thorsten/tacotron2-DDC --speaker_wav beispiel.wav --out_path ausgabe.wav
  • Backend-Optionen: VITS (schnellste, gute Qualität), Tacotron2 (älter, langsamer), XTTS (beste Qualität, siehe XTTS v2-Abschnitt).
  • Sprachen: 20+ Sprachmodelle verfügbar über tts --list_models.
  • VRAM: 2–4 GB für VITS-Backend; 4–6 GB für XTTS-Backend.
  • Apple Silicon: ~8× Echtzeit auf M5 Pro (CPU). Keine Metal-GPU-Beschleunigung. Für Stapelgenerierung verwendbar.
  • Community-Status: Coqui Inc schloss Ende 2023. Das Open-Source-Repo (coqui-ai/TTS) wird von der Community gepflegt. Kein aktiver kommerzieller Support.
  • Lizenz: MPL 2.0 — Kommerzielle Nutzung erlaubt, aber Quellcode von Änderungen muss offengelegt werden.
  • Am besten für: Entwickler, die Voice-Cloning mit einem Open-Source-Toolkit und einer freizügigen Lizenz wollen.

XTTS v2 — Beste Voice-Cloning-Qualität

XTTS v2 (von Coqui) ist die hochwertigste lokal verfügbare Voice-Cloning-Engine im Jahr 2026. Es verwendet eine GPT-basierte Architektur mit sprachübergreifendem Transfer — klonen Sie eine Stimme auf Englisch und sprechen Sie sie auf Spanisch, Deutsch, Französisch oder 14 anderen Sprachen aus denselben 6 Sekunden Audio.

  • Architektur: GPT-basiertes TTS mit Speaker-Conditioning. Vision-Transformer für Prosodie-Modellierung.
  • Voice-Cloning: 6 Sekunden Referenzaudio sind ausreichend für ein überzeugendes Voice-Cloning. 3 Sekunden erzeugen passable Qualität.
  • Sprachübergreifendes Cloning: Stimme in einer Sprache klonen, Sprache in 17 verschiedenen Sprachen mit denselben Stimm-Charakteristiken generieren.
  • VRAM: 4–6 GB GPU empfohlen. Läuft auf CPU, aber ~5–10× langsamer.
  • Geschwindigkeit: Langsam — generiert ~2× Echtzeit auf einem RTX 4070. Nicht geeignet für Echtzeit-Sprach-Assistenten-Pipelines.
  • Apple Silicon: ~3× Echtzeit auf M5 Pro (CPU, keine Metal-Beschleunigung). Für Stapel-Audio-Generierung verwendbar, nicht für Echtzeit-Sprach-Assistenten-Ausgabe.
  • Lizenz: CPML (Coqui Public Model License). Kostenlos für Forschung und persönliche Nutzung. Kommerzielle Nutzung erfordert eine Lizenzvereinbarung.
python
from TTS.api import TTS

# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
    text="Bonjour, je suis votre assistant vocal.",
    speaker_wav="reference_voice.wav",   # 6+ seconds of the target speaker
    language="fr",                        # Output in French using the cloned voice
    file_path="output.wav"
)

⚠️Warning: XTTS v2 unterliegt der CPML-Lizenz. Die kommerzielle Nutzung — einschließlich in Produkten, SaaS-Anwendungen oder Diensten — erfordert eine kommerzielle Lizenzvereinbarung. Prüfen Sie die Lizenzbedingungen vor der Bereitstellung.

Bark — Generatives Audio jenseits von Sprache

Bark (von Suno AI) ist ein generatives Text-to-Audio-Modell, das Sprache, Musik, Lachen, Husten, Seufzer und Umgebungsgeräusche aus Textprompts erzeugt. Es ist kein traditionelles TTS-System — es ist ein generatives Modell, das Textprompts als Audiogenerierungs-Anweisungen interpretiert.

  • Einzigartige Fähigkeit: Fügen Sie `[laughs], [sighs], [clears throat], [music] oder [sound effect: wind]` in Ihren Text ein und Bark generiert diese Klänge neben der Sprache.
  • Nicht steuerbar wie traditionelles TTS: Die Ausgabe variiert zwischen Durchläufen für dieselbe Eingabe. Die Qualität ist inkonsistent — manche Ausgaben sind ausgezeichnet, andere haben Artefakte oder unverständliche Segmente.
  • Geschwindigkeit: Langsam — 2–4× langsamer als Echtzeit selbst auf einem RTX 4090. Nicht geeignet für interaktive Anwendungen.
  • Apple Silicon: ~1,5× Echtzeit auf M5 Pro (CPU, MPS partiell). MPS (Metal Performance Shaders)-Unterstützung ist partiell — die meiste Inferenz fällt weiterhin auf CPU zurück.
  • Am besten für: Kreatives Audio, Podcast-Produktion mit Soundeffekten, interaktive Fiktion, experimentelle Sprach-Anwendungen.
  • VRAM: 4–8 GB GPU. Läuft auf CPU mit deutlich niedrigerer Qualität.
  • Installation: pip install suno-bark. Modelle werden beim ersten Ausführen heruntergeladen (~2 GB).
  • Lizenz: MIT — vollständig kommerziell.
  • Einschränkung: Kein zuverlässiges Voice-Cloning. Die mit Bark gebündelten „Voice-Presets" sind näherungsweise — kein echtes Voice-Cloning-System.

StyleTTS 2 — Höchste natürliche Qualität

StyleTTS 2 ist ein diffusionsbasiertes TTS-Modell, das nahezu menschliche Mean Opinion Scores (MOS) auf dem LJSpeech-Benchmark erreicht. Es überträgt den Sprechstil mittels Diffusion — generiert Sprache, die natürlicher und ausdrucksvoller ist als VITS-basierte Modelle.

  • Architektur: Diffusionsbasiertes Style-Transfer. Sampling aus einer gelernten Verteilung von Sprechstilen statt deterministischer Zuordnung von Text zu Audio.
  • Qualität: Höchste MOS-Werte aller Open-Source-englischen TTS-Engines auf dem LJSpeech-Benchmark.
  • Am besten für: Hörbuch-Narration, professionellen Voiceover, Podcast-Produktion.
  • Installation: GitHub-Repo klonen, Anforderungen installieren (pip install -r requirements.txt), Modell-Checkpoints herunterladen (~500 MB).
  • Sprachunterstützung: Hauptsächlich Englisch. Nicht empfohlen für Nicht-Englisch-Verwendung.
  • Voice-Cloning: Nicht unterstützt. StyleTTS 2 generiert nur in trainierten Speaker-Stimmen.
  • VRAM: 2–4 GB GPU. Schneller als XTTS v2 bei ~5–8× Echtzeit auf RTX 4070.
  • Apple Silicon: ~6× Echtzeit auf M5 Pro (CPU). Keine Metal-Beschleunigung.
  • Lizenz: MIT — vollständig kommerziell.

F5-TTS — Zero-Shot-Voice-Cloning, vollständig offen

F5-TTS ist ein Flow-Matching-basiertes TTS-Modell mit Zero-Shot-Voice-Cloning — klonen Sie jede Stimme aus ~3 Sekunden Referenzaudio ohne Fine-Tuning.

  • Architektur: Flow-Matching (ein Diffusions-Varianten-Ansatz) statt GPT-basierter Architektur wie bei XTTS v2. Typischerweise schnellere Inferenz mit vergleichbarer Qualität.
  • Voice-Cloning: ~3 Sekunden Referenzaudio sind ausreichend. Kein Fine-Tuning erforderlich.
  • Qualität: Vergleichbar mit XTTS v2 auf Englisch. MOS-Werte ~4,1 in Community-Evaluierungen.
  • Geschwindigkeit: ~3–5× Echtzeit auf RTX 4070 — schneller als XTTS v2.
  • Sprachen: Starke Unterstützung für Englisch und Chinesisch, mit wachsender Unterstützung für weitere Sprachen.
  • Apple Silicon: ~2× Echtzeit auf M5 Pro (CPU). Derzeit keine Metal-Beschleunigung.
  • VRAM: 3–5 GB GPU empfohlen.
  • Installation: pip install f5-tts oder von GitHub klonen.
  • Lizenz: CC-BY-NC-4.0 — nur nicht-kommerziell. Kommerzielle Nutzung erfordert eine separate Vereinbarung.

Lizenzübersicht — Wichtig für kommerzielle Nutzung

Lizenzbedingungen sind für den Produktionseinsatz entscheidend.

ToolLizenzKommerziell erlaubt?Hauptbedingung
PiperMITJa — keine EinschränkungenMIT-Copyright-Hinweis angeben
KokoroApache 2.0Ja — keine EinschränkungenApache 2.0-Hinweis angeben
Coqui TTSMPL 2.0Ja — mit BedingungenQuellcode von Änderungen muss offengelegt werden
XTTS v2CPMLNur Forschung / persönlichKommerzielle Nutzung erfordert Lizenzvereinbarung
F5-TTSCC-BY-NC-4.0Nur nicht-kommerziellKommerzielle Nutzung ohne separate Vereinbarung verboten
BarkMITJa — keine EinschränkungenMIT-Copyright-Hinweis angeben
StyleTTS 2MITJa — keine EinschränkungenMIT-Copyright-Hinweis angeben

📌Note: Coqui TTS (das Toolkit, MPL 2.0) und XTTS v2 (das spezifische Modell, CPML) haben unterschiedliche Lizenzen. Sie können das Coqui TTS-Toolkit mit VITS- oder Tacotron2-Backends unter MPL 2.0 in kommerziellen Produkten verwenden. Die CPML-Einschränkung gilt speziell für die XTTS v2-Modellgewichte.

Lokales TTS im Vergleich zu ElevenLabs und Cloud-TTS

ElevenLabs, Google Text-to-Speech und Azure Speech bleiben die Qualitätsgrenze für TTS im Jahr 2026.

  • Qualitätsgrenze: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper.
  • Latenz: Piper lokal (~30–50 ms erstes Audio) ist schneller als jeder ElevenLabs-API-Roundtrip (~300–500 ms).
  • Kosten: ElevenLabs berechnet 5–99 €/Monat nach Tarif. Lokales TTS kostet 0 € nach einmaliger Hardware.
  • Voice-Cloning: ElevenLabs Instant Voice Clone ≈ XTTS v2 Qualität. ElevenLabs Professional Voice Clone übertrifft jede lokale Engine.
  • Datenschutz: Lokales TTS = keine Audiodaten werden irgendwohin gesendet. ElevenLabs = Audio wird auf deren Servern verarbeitet.
  • Offline-Fähigkeit: Lokal = vollständig offline. ElevenLabs = benötigt Internet.
  • Wann Cloud verwenden: Professionelle Voiceover-Produktion, kundenseitige Produkte, die höchste Qualität erfordern.
  • Wann lokal verwenden: Datenschutzkritisches Audio, Embedded-Geräte, kostensensible Stapelverarbeitung, Offline-Umgebungen.

Wie Sie wählen

Ein Entscheidungsdiagramm von Ihrer Anforderung zur richtigen TTS-Engine:

📍 In einem Satz

Voice-Cloning benötigt? → XTTS v2 (beste Qualität) oder F5-TTS (schneller, neuere Architektur) oder Coqui TTS (offene Lizenz). CPU-Geschwindigkeit benötigt? → Piper. Kreatives Audio benötigt? → Bark. Beste englische Qualität benötigt? → StyleTTS 2.

💬 In einfachen Worten

Voice-Cloning: XTTS v2 für Qualität, F5-TTS für Geschwindigkeit, Coqui VITS für freizügige Lizenz. CPU/Raspberry Pi: nur Piper. Podcast-Soundeffekte: Bark. Englische Hörbücher: StyleTTS 2.

  • Voice-Cloning benötigt? → XTTS v2 (beste Qualität, CPML) oder F5-TTS (neuere Architektur, schneller, CC-BY-NC-4.0) oder Coqui VITS (gute Qualität, MPL 2.0). Kein Cloning benötigt: Piper (Geschwindigkeit) oder StyleTTS 2 (Qualität).
  • Nur CPU / Raspberry Pi benötigt? → Nur Piper. Kokoro ist eine hochwertigere CPU-Alternative (Apache 2.0). Alle anderen Engines benötigen GPU.
  • Kreatives Audio mit Nicht-Sprach-Klängen benötigt? → Bark. Keine andere lokale Engine erzeugt nativ Lachen, Seufzer oder Musik.
  • Beste englische Narrations-Qualität benötigt? → StyleTTS 2.
  • Mehrsprachige Unterstützung benötigt? → XTTS v2 (17 Sprachen), Coqui (20+), Piper (20+ Packs).
  • Vollständig kommerzielle MIT-Lizenz benötigt? → Piper, Bark oder StyleTTS 2.
  • Sprach-Assistenten-Pipeline aufbauen? → Piper für Niedrig-Latenz-TTS-Ausgabe.

Häufig gestellte Fragen

Wie viel Referenz-Audio benötige ich für Voice-Cloning mit XTTS v2?

XTTS v2 benötigt mindestens 3 Sekunden sauberes Referenzaudio, wobei 6+ Sekunden deutlich bessere Ergebnisse geben. Das Audio muss ein einzelner Sprecher mit minimalem Hintergrundgeräusch und ohne Musik sein. Higher-Quality-Quellmaterial erzeugt bessere Klone als komprimiertes Audio.

Kann ich Piper TTS in einem kommerziellen Produkt verwenden?

Ja. Piper ist unter der MIT-Lizenz lizenziert, die unbegrenzte kommerzielle Nutzung gestattet. Sie müssen die MIT-Lizenznotiz in Ihrem Produkt angeben. Die Voice-Modelle (ONNX-Dateien) können separate Lizenzen pro Voice haben.

Muss ich bei der Verwendung von lokalen TTS-Engines die DSGVO beachten?

Lokale TTS-Engines, die vollständig offline laufen, verursachen per Design keine DSGVO-Probleme für interne Nutzung — da keine persönlichen Daten Ihre Systeme verlassen, ist keine Datenverarbeitungsvereinbarung erforderlich. Überprüfen Sie jedoch Ihre lokale Speicherung: Wenn Ihr Orchestrator Gesprächsverlauf oder Audio-Dateien speichert, unterliegen diese Speicher den Aufbewahrungsanforderungen (DSGVO Artikel 5). Verwenden Sie kurzlebigen In-Memory-Speicher oder verschlüsselt lokalen Speicher mit angemessenen Aufbewahrungsrichtlinien.

Ist lokale TTS für den deutschen Mittelstand geeignet?

Ja. Für kleine und mittlere Unternehmen (KMU) bietet lokale TTS Kosten-Effizienz, Datenschutz und Compliance mit BSI-Grundschutz-Standards. Piper ist ideal für einfache Automatisierung und Customer-Service-Anwendungen. Coqui TTS oder XTTS v2 eignen sich für anspruchsvollere Voice-Cloning-Anforderungen in Finanz-, Rechts- oder Gesundheitskontexten.

Quellen

  • Piper TTS auf GitHub — Quellcode, Voice-Packs, ONNX-Modell-Downloads und Raspberry-Pi-Anleitung.
  • Coqui TTS auf GitHub — Quellcode, Modelliste, Voice-Cloning-Dokumentation und Python-API-Referenz.
  • XTTS v2 Dokumentation — XTTS v2 Modellkarte, Lizenz (CPML) und Voice-Cloning-API.
  • F5-TTS auf GitHub — Flow-Matching-TTS mit Zero-Shot-Voice-Cloning, Installationsanleitung und mehrsprachiger Unterstützung.

← Zurück zu Power Local LLM

Lokale TTS 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2