¿Qué motor TTS local debo usar en 2026?

La elección correcta depende de tu hardware, los idiomas que necesitas y si precisas clonación de voz. Piper es el más rápido y funciona solo en CPU. XTTS v2 ofrece la mejor calidad de clonación de voz pero necesita entre 4 y 6 GB de VRAM en GPU. F5-TTS es una alternativa de crecimiento rápido para clonación zero-shot con una arquitectura de flow-matching más moderna. Coqui TTS es el mejor todo-en-uno open source con clonación de voz y licencia permisiva. Bark es único para audio creativo con sonidos no hablados. StyleTTS 2 ofrece la mejor calidad de narración en inglés sin clonación de voz.

Inicio/Power Local LLM/TTS local y clonación de voz 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2

Voice, Speech & Multimodal

TTS local y clonación de voz 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2

Última actualización: 2026-05-14·14 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es

Piper es el mejor motor TTS local para velocidad en CPU y dispositivos embebidos — funciona en tiempo real en una Raspberry Pi 5 y no requiere GPU. XTTS v2 es la mejor opción de clonación de voz local en 2026 (6 segundos de audio de referencia → voz clonada en 17 idiomas), pero requiere entre 4 y 6 GB de VRAM en GPU y una licencia comercial para uso en producción. F5-TTS es una alternativa de flow-matching más moderna para clonación de voz zero-shot — calidad competitiva con inferencia más rápida que XTTS v2 y una comunidad de desarrollo activa. Para equilibrar clonación de voz con licencia permisiva, Coqui TTS sobre el backend XTTS o VITS es la elección práctica. Bark es el único motor de audio generativo que produce risas, suspiros y sonidos ambientales — capacidad única para proyectos creativos, pero lento y menos controlable. StyleTTS 2 produce la narración en inglés más natural, pero es solo en inglés y no tiene clonación de voz.

Seis motores de síntesis de voz local compiten en 2026 para distintos casos de uso: Piper es el mejor motor TTS local para velocidad en CPU y hardware embebido, Coqui TTS para equilibrar calidad y clonación de voz, XTTS v2 es la mejor opción de clonación de voz local (6 segundos de audio de referencia → voz clonada en 17 idiomas), F5-TTS para clonación de voz zero-shot con una arquitectura de flow-matching más moderna, Bark para audio creativo y generativo incluyendo risas y música, y StyleTTS 2 para calidad casi humana en narración en inglés. Esta guía compara los seis en calidad, velocidad, requisitos de VRAM, capacidad de clonación de voz, soporte multilingüe y licencia — para que puedas elegir el motor correcto sin enviar datos de audio a la nube.

Conclusiones clave

Piper es la elección correcta para velocidad y uso embebido. Funciona completamente en CPU, produce voz en tiempo real en una Raspberry Pi 5 y admite más de 20 idiomas mediante paquetes de voz descargables. Sin GPU, sin complejidad en Python, licencia MIT.
XTTS v2 es la mejor opción de clonación de voz local en 2026. Con 6 segundos de audio de referencia clona la voz en 17 idiomas. Requiere entre 4 y 6 GB de VRAM en GPU. La licencia CPML restringe el uso comercial — revisa la licencia antes de desplegar.
F5-TTS es la alternativa de crecimiento más rápido para clonación de voz zero-shot. Usa una arquitectura de flow-matching en lugar de GPT, clona una voz a partir de ~3 segundos de audio de referencia y logra calidad competitiva con XTTS v2 a velocidades de inferencia más rápidas. Licencia: CC-BY-NC-4.0 (no comercial).
Coqui TTS es el kit de herramientas TTS open source más flexible. Admite múltiples backends (Tacotron2, VITS, XTTS), clonación de voz y más de 20 idiomas bajo licencia MPL 2.0. Nota: la empresa Coqui cerró a finales de 2023; el proyecto ahora lo mantiene la comunidad.
Bark es el único TTS local que genera audio no hablado. Puede producir risas, tos, suspiros, fragmentos musicales y efectos de sonido ambientales junto al habla — útil para audio creativo, producción de podcasts y ficción interactiva. Sus salidas son lentas y no deterministas.
StyleTTS 2 logra las puntuaciones MOS (mean opinion score) más altas de cualquier motor TTS en inglés open source. Su transferencia de estilo basada en difusión produce naturalidad casi humana en narración en inglés. Solo admite inglés y no tiene clonación de voz.
La licencia es muy importante para el uso comercial. Piper (MIT), Bark (MIT), StyleTTS 2 (MIT): comercial libremente. Coqui (MPL 2.0): uso comercial permitido con condiciones de divulgación. XTTS v2 (CPML): el uso comercial requiere un acuerdo de licencia. F5-TTS (CC-BY-NC-4.0): el uso comercial está prohibido sin acuerdo separado.
Ninguno iguala la calidad de un TTS comercial a escala. ElevenLabs, Google Text-to-Speech y Azure TTS aún superan a los motores locales en consistencia, naturalidad y latencia en todos los casos de uso. El TTS local es la elección correcta cuando la privacidad, el costo o la operación offline importan más que la calidad absoluta.

Datos rápidos

TTS local más rápido: Piper — tiempo real en Raspberry Pi 5, ~10× más rápido que en tiempo real en CPU de escritorio moderno.
Mejor calidad de clonación de voz: XTTS v2 — 6 segundos de audio de referencia, clonación multilingüe en 17 idiomas.
Clonación de voz zero-shot más rápida (arquitectura más nueva): F5-TTS — ~3 segundos de audio, flow-matching, ~3–5× tiempo real en RTX 4070.
Kit de herramientas open source más flexible: Coqui TTS — admite backends VITS, Tacotron2, XTTS, más de 20 modelos de idioma.
Único audio generativo (sonidos no hablados): Bark — risas, suspiros, música, ambiente. El más lento de todos.
Mejor calidad de narración en inglés: StyleTTS 2 — transferencia de estilo basada en difusión, MOS casi humano en el benchmark LJSpeech.
Requisitos de VRAM: Piper: solo CPU. Kokoro: CPU / 1–2 GB. StyleTTS 2: 2–4 GB. Coqui VITS: 2–4 GB. F5-TTS: 3–5 GB. XTTS v2: 4–6 GB. Bark: 4–8 GB.

Por qué importa el TTS local

Los servicios TTS en la nube (ElevenLabs, Google TTS, Amazon Polly, Azure Speech) son convenientes pero traen facturación por carácter, políticas de retención de datos de audio y latencia por los viajes de red de ida y vuelta. El TTS local elimina los tres problemas.

Privacidad: Tu contenido de texto nunca sale de tu equipo. Fundamental para dictado médico, resúmenes legales, narración de diarios privados o lectura en voz alta de documentos confidenciales.
Costo: Los precios del TTS en la nube son típicamente de $4–$30 por millón de caracteres. Un desarrollador que genera 10 millones de caracteres por mes ahorra $40–$300/mes con una configuración local única.
Latencia: Sin viaje de red de ida y vuelta. Piper genera el primer token de audio en menos de 50 ms en CPU — más rápido que cualquier TTS en la nube.
Personalización: La clonación de voz (XTTS v2, F5-TTS, Coqui) permite crear una voz personalizada a partir de unos pocos segundos de audio. Los proveedores en la nube cobran $10+/mes por cada voz clonada.
Operación offline: Funciona en aviones, instalaciones seguras, zonas remotas sin internet. Interfaz de voz embebida para quioscos y dispositivos.

Tabla de comparación

Todos los motores TTS locales comparados en las métricas más importantes para despliegue en producción.

📍 En una frase

Piper es el más rápido en CPU; XTTS v2 ofrece la mejor calidad de clonación de voz; F5-TTS proporciona clonación zero-shot con una arquitectura más nueva; Bark es el único motor que produce risas y música; StyleTTS 2 tiene la mejor naturalidad de narración en inglés.

💬 En términos simples

Para la mayoría de necesidades TTS offline: Piper si quieres velocidad y simplicidad, Coqui si quieres clonación de voz con licencia permisiva, XTTS v2 si quieres la mejor calidad de clonación y tienes GPU, F5-TTS si quieres una arquitectura más nueva con clonación zero-shot más rápida.

Herramienta	Calidad	Velocidad	Clonación de voz	Multilingüe	VRAM	Licencia	MOS (inglés)
Piper	Buena	Muy rápida (CPU)	No	Sí (20+ idiomas)	Solo CPU	MIT	~3,5
Kokoro	Muy buena	Rápida (CPU)	No	Inglés + en expansión	CPU / 1–2 GB	Apache 2.0	~4,0
Coqui TTS	Muy buena	Media	Sí	Sí (20+ idiomas)	2–4 GB	MPL 2.0	~3,8
XTTS v2	Excelente	Lenta	Sí (la mejor)	Sí (17 idiomas)	4–6 GB	CPML (comercial restringida)	~4,1
F5-TTS	Excelente	Media-rápida	Sí (zero-shot)	Sí (multilingüe)	3–5 GB	CC-BY-NC-4.0	~4,1
Bark	Única / variable	Lenta	Limitada	Sí (multilingüe)	4–8 GB	MIT	~3,2–4,0 (variable)
StyleTTS 2	Excelente (inglés)	Media	No	Principalmente inglés	2–4 GB	MIT	~4,3

MOS (mean opinion score) en una escala de 1–5 donde 5 es indistinguible del habla humana. Las puntuaciones son aproximadas y se basan en benchmarks publicados o evaluaciones de la comunidad. El MOS varía significativamente según la frase de prueba y el grupo de oyentes. MOS de referencia humana: ~4,5.

Comparación de latencia del primer audio

La latencia del primer audio es el tiempo desde la entrada de texto hasta la primera salida audible. Fundamental para asistentes de voz y aplicaciones interactivas. Para procesamiento por lotes (audiolibros, producción de podcasts), el rendimiento total importa más que la latencia del primer audio.

Motor	Primer audio (RTX 4070)	Primer audio (CPU)	Primer audio (M5 Pro)
Piper	~30 ms	~50 ms	~40 ms
Kokoro	~50 ms	~80 ms	~60 ms
Coqui VITS	~100 ms	~300 ms	~150 ms
StyleTTS 2	~150 ms	~500 ms	~200 ms
F5-TTS	~200 ms	~800 ms	~300 ms
XTTS v2	~300 ms	~1500 ms	~500 ms
Bark	~500 ms	~3000 ms	~800 ms

Piper TTS — Opción ligera más rápida

Piper es un sistema de síntesis de voz local rápido desarrollado por Rhasspy para automatización del hogar y uso embebido. Usa una arquitectura neuronal basada en VITS entrenada sobre conjuntos de datos de voz con un backend onnxruntime — optimizada para funcionar en tiempo real en una Raspberry Pi 4 o 5 sin GPU.

Arquitectura: TTS neuronal VITS con inferencia ONNX. Diseñado para computadoras de placa única y Linux embebido.
Instalación: pip install piper-tts. Los paquetes de voz preentrenados están disponibles en el repositorio de Piper voices en Hugging Face.
Uso: echo "Hola, mundo" | piper --model es_ES-mls-medium.onnx --output_file salida.wav
Paquetes de voz: Más de 20 idiomas, múltiples opciones de voz por idioma. Cada paquete de voz es un archivo de modelo ONNX de 20–200 MB.
Velocidad: ~10× más rápido que en tiempo real en una CPU de escritorio moderna. Tiempo real en Raspberry Pi 5. Latencia del primer audio inferior a 50 ms.
Apple Silicon: ~15× tiempo real en M5 Pro (CPU, ARM NEON). Funciona de forma nativa sin GPU — excelente rendimiento en Mac.
Escuchar muestras: Muestras de voz de Piper
Ideal para: Asistentes de hogar, dispositivos de quiosco, interfaz de voz embebida, lectura en voz alta sensible a la privacidad donde no hay GPU disponible.
Limitación: Sin clonación de voz. La calidad es "buena" — suena natural pero claramente sintética en comparación con XTTS v2 o StyleTTS 2.
Licencia: MIT — completamente comercial, sin restricciones.
Kokoro TTS — alternativa a Piper: Kokoro TTS es una alternativa emergente a Piper en la categoría ligera. Logra mayor naturalidad que Piper manteniéndose rápido en CPU. Licenciado bajo Apache 2.0. Si la calidad de Piper no cubre tus necesidades pero no puedes costear VRAM de GPU, Kokoro vale la pena probar.

Coqui TTS — Mejor kit de herramientas open source

Coqui TTS es un kit de herramientas Python para síntesis de voz que admite múltiples arquitecturas de modelos y clonación de voz. Fue desarrollado por la empresa Coqui (que cerró a finales de 2023) y ahora lo mantiene la comunidad open source. El kit admite backends Tacotron2, VITS y XTTS.

Instalación: pip install TTS. Los modelos se descargan automáticamente en el primer uso.
Clonación de voz: Proporciona 6+ segundos de audio de referencia. tts --text "Hola" --model_name tts_models/es/css10/vits --speaker_wav muestra.wav --out_path salida.wav
Opciones de backend: VITS (el más rápido, buena calidad), Tacotron2 (más antiguo, más lento), XTTS (mejor calidad, ver sección XTTS v2).
Idiomas: Más de 20 modelos de idioma disponibles mediante tts --list_models.
VRAM: 2–4 GB para el backend VITS; 4–6 GB para el backend XTTS.
Apple Silicon: ~8× tiempo real en M5 Pro (CPU). Sin aceleración Metal GPU. Utilizable para generación por lotes.
Estado de la comunidad: Coqui Inc cerró a finales de 2023. El repositorio open source (coqui-ai/TTS) lo mantiene la comunidad. Sin soporte comercial activo.
Licencia: MPL 2.0 — uso comercial permitido, pero el código fuente de las modificaciones debe divulgarse.
Ideal para: Desarrolladores que quieren clonación de voz con un kit de herramientas open source y licencia permisiva.
Escuchar muestras: La demo oficial de coqui.ai está archivada. Ejemplos de audio de la comunidad están enlazados en el repositorio coqui-ai/TTS en GitHub en la sección de demos.

XTTS v2 — Mejor calidad de clonación de voz

XTTS v2 (de Coqui) es el motor de clonación de voz de mayor calidad disponible localmente en 2026. Usa una arquitectura basada en GPT con transferencia entre idiomas — clona una voz en inglés y la habla en español, alemán, francés u otros 14 idiomas a partir de los mismos 6 segundos de audio.

Arquitectura: TTS basado en GPT con condicionamiento del hablante. Vision-transformer para modelado de prosodia.
Clonación de voz: Con 6 segundos de audio de referencia es suficiente para un clon de voz convincente. 3 segundos producen calidad aceptable.
Clonación multilingüe: Clona la voz en un idioma, genera habla en 17 idiomas diferentes con las mismas características de voz.
VRAM: Se recomienda GPU de 4–6 GB. Funciona en CPU pero ~5–10× más lento.
Velocidad: Lento — genera ~2× tiempo real en un RTX 4070. No adecuado para pipelines de asistente de voz en tiempo real.
Apple Silicon: ~3× tiempo real en M5 Pro (CPU, sin aceleración Metal). Utilizable para generación de audio por lotes, no para salida de asistente de voz en tiempo real.
Escuchar muestras: Demo de XTTS v2 en Hugging Face
Licencia: CPML (Coqui Public Model License). Gratuito para investigación y uso personal. El uso comercial requiere un acuerdo de licencia con el sucesor de Coqui.

python

from TTS.api import TTS

# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
    text="Bonjour, je suis votre assistant vocal.",
    speaker_wav="reference_voice.wav",   # 6+ seconds of the target speaker
    language="fr",                        # Output in French using the cloned voice
    file_path="output.wav"
)

⚠️Warning: XTTS v2 está cubierto por la licencia CPML. El uso comercial — incluyendo en productos, aplicaciones SaaS o servicios — requiere un acuerdo de licencia comercial. Revisa los términos de la licencia antes de desplegar.

Bark — Audio generativo más allá del habla

Bark (de Suno AI) es un modelo generativo de texto a audio que produce habla, música, risas, tos, suspiros y sonidos ambientales a partir de prompts de texto. No es un motor TTS tradicional — es un modelo generativo que interpreta los prompts de texto como instrucciones de generación de audio.

Capacidad única: Incluye `[laughs], [sighs], [clears throat], [music] o [sound effect: wind]` en tu texto y Bark genera esos sonidos junto al habla.
No controlable como un TTS tradicional: La salida varía entre ejecuciones para la misma entrada. La calidad es inconsistente — algunas salidas son excelentes, otras tienen artefactos o segmentos incomprensibles.
Velocidad: Lento — 2–4× más lento que en tiempo real incluso en un RTX 4090. No adecuado para aplicaciones interactivas.
Apple Silicon: ~1,5× tiempo real en M5 Pro (CPU, MPS parcial). El soporte MPS (Metal Performance Shaders) es parcial — la mayor parte de la inferencia sigue cayendo en la CPU.
Ideal para: Audio creativo, producción de podcasts con efectos de sonido, ficción interactiva, aplicaciones de voz experimentales.
VRAM: GPU de 4–8 GB. Funciona en CPU con calidad significativamente inferior.
Instalación: pip install suno-bark. Los modelos se descargan en la primera ejecución (~2 GB).
Licencia: MIT — completamente comercial.
Limitación: Sin clonación de voz fiable. Los "preajustes de voz" incluidos con Bark son aproximados — no es un sistema de clonación de voz real.

StyleTTS 2 — Máxima calidad natural

StyleTTS 2 es un modelo TTS basado en difusión que logra puntuaciones MOS (mean opinion score) casi humanas en el benchmark LJSpeech. Transfiere el estilo del habla mediante difusión — generando habla más natural y expresiva que los modelos basados en VITS.

Arquitectura: Transferencia de estilo basada en difusión. Muestrea desde una distribución aprendida de estilos de habla en lugar de mapear el texto al audio de forma determinista.
Calidad: Las puntuaciones MOS más altas de cualquier motor TTS en inglés open source en el benchmark LJSpeech. Los oyentes lo califican como prácticamente indistinguible de la narración humana en pruebas controladas.
Ideal para: Narración de audiolibros, voz profesional en off, producción de podcasts, cualquier aplicación donde la calidad en inglés importa más que la personalización de voz.
Instalación: Clona el repositorio de GitHub, instala los requisitos (pip install -r requirements.txt), descarga los checkpoints del modelo (~500 MB).
Soporte de idiomas: Principalmente inglés. Capacidad multilingüe limitada — no recomendado para uso en idiomas distintos al inglés.
Clonación de voz: No compatible. StyleTTS 2 genera solo en voces de hablantes entrenadas.
VRAM: GPU de 2–4 GB. Más rápido que XTTS v2 a ~5–8× tiempo real en RTX 4070.
Apple Silicon: ~6× tiempo real en M5 Pro (CPU). Sin aceleración Metal, pero el rendimiento en ARM es sólido para generación de audio por lotes.
Escuchar muestras: StyleTTS 2 en GitHub — busca "StyleTTS 2 audio samples" para ejemplos de la comunidad si la página de demo no está disponible.
Licencia: MIT — completamente comercial.

F5-TTS — Clonación de voz zero-shot, totalmente abierto

F5-TTS es un modelo TTS basado en flow-matching con clonación de voz zero-shot — clona cualquier voz a partir de ~3 segundos de audio de referencia sin fine-tuning. Es uno de los proyectos TTS locales de crecimiento más rápido en 2025–2026, con desarrollo activo y adopción comunitaria creciente.

Arquitectura: Flow-matching (un enfoque variante de la difusión) en lugar de la arquitectura basada en GPT que usa XTTS v2. El flow-matching típicamente ofrece inferencia más rápida con calidad competitiva.
Clonación de voz: ~3 segundos de audio de referencia es suficiente para clonación de voz zero-shot. No se requiere fine-tuning — funciona con cualquier voz en tiempo de inferencia.
Calidad: Competitiva con XTTS v2 en inglés. Puntuaciones MOS aproximadamente ~4,1 en evaluaciones de la comunidad.
Velocidad: ~3–5× tiempo real en RTX 4070 — más rápido que XTTS v2 (~2× tiempo real) para calidad de clonación de voz comparable.
Idiomas: Multilingüe — soporte sólido para inglés y chino, con soporte en expansión para otros idiomas.
Apple Silicon: ~2× tiempo real en M5 Pro (CPU). Sin aceleración Metal actualmente.
VRAM: Se recomienda GPU de 3–5 GB. Menor huella que XTTS v2.
Instalación: pip install f5-tts o clona desde GitHub.
Licencia: CC-BY-NC-4.0 — solo uso no comercial. El uso comercial requiere un acuerdo separado con los autores.
Por qué importa: F5-TTS trae una arquitectura más moderna a la clonación de voz local con una comunidad activa. Si XTTS v2 es demasiado lento para tu pipeline o su licencia CPML es una preocupación para proyectos no comerciales, F5-TTS es la principal alternativa a evaluar.

Desglose de licencias — Importante para uso comercial

Los términos de la licencia son fundamentales para el despliegue en producción. Una licencia permisiva significa que puedes usar la herramienta en un producto comercial sin restricciones; una licencia restringida significa que debes revisar los términos cuidadosamente antes de desplegar.

Herramienta	Licencia	¿Comercial?	Condición principal
Piper	MIT	Sí — sin restricciones	Incluir aviso de copyright MIT
Kokoro	Apache 2.0	Sí — sin restricciones	Incluir aviso Apache 2.0
Coqui TTS	MPL 2.0	Sí — con condiciones	El código fuente de las modificaciones debe divulgarse
XTTS v2	CPML	Solo investigación / personal	El uso comercial requiere acuerdo de licencia
F5-TTS	CC-BY-NC-4.0	Solo no comercial	Uso comercial prohibido sin acuerdo separado
Bark	MIT	Sí — sin restricciones	Incluir aviso de copyright MIT
StyleTTS 2	MIT	Sí — sin restricciones	Incluir aviso de copyright MIT

📌Note: Coqui TTS (el kit de herramientas, MPL 2.0) y XTTS v2 (el modelo específico, CPML) tienen licencias diferentes. Puedes usar el kit Coqui TTS con backends VITS o Tacotron2 bajo MPL 2.0 en productos comerciales. La restricción CPML se aplica específicamente a los pesos del modelo XTTS v2.

TTS local vs ElevenLabs y TTS en la nube

ElevenLabs, Google Text-to-Speech y Azure Speech siguen siendo el techo de calidad para el TTS en 2026. Esta sección muestra dónde los motores locales compiten eficazmente y dónde la nube sigue ganando.

Techo de calidad: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper. ElevenLabs sigue siendo el techo de calidad en 2026 en consistencia y expresividad.
Latencia: Piper local (~30–50 ms primer audio) es más rápido que cualquier viaje de ida y vuelta de la API de ElevenLabs (~300–500 ms). Para interfaz de voz en tiempo real, Piper local gana en latencia.
Costo: ElevenLabs cobra $5–99/mes por nivel. El TTS local cuesta $0 después del hardware inicial. A escala (millones de caracteres/mes), lo local es significativamente más barato.
Clonación de voz: ElevenLabs Instant Voice Clone ≈ calidad XTTS v2. ElevenLabs Professional Voice Clone (requiere una sesión de grabación del hablante) supera a cualquier motor local.
Privacidad: TTS local = no se envían datos de audio a ningún lugar. ElevenLabs = audio procesado en sus servidores. Fundamental para contenido sensible.
Capacidad offline: Local = completamente offline. ElevenLabs = requiere internet. Sin modo offline disponible.
Cuándo usar la nube: Producción de voz profesional, productos orientados al cliente que requieren la más alta calidad, proyectos con múltiples voces de decenas de personajes.
Cuándo usar lo local: Audio crítico para la privacidad, dispositivos embebidos, procesamiento por lotes sensible al costo, entornos offline, desarrollo y prototipado.

Cómo elegir

Un diagrama de decisión desde tu requisito hasta el motor TTS correcto:

📍 En una frase

¿Necesitas clonación de voz? → XTTS v2 (mejor calidad) o F5-TTS (más rápido, arquitectura más nueva) o Coqui TTS (licencia abierta). ¿Necesitas velocidad en CPU? → Piper. ¿Necesitas audio creativo? → Bark. ¿Necesitas la mejor calidad en inglés? → StyleTTS 2.

💬 En términos simples

Si quieres clonar la voz de alguien, usa XTTS v2 para calidad, F5-TTS para inferencia más rápida o Coqui VITS para licencia permisiva. Si estás construyendo una interfaz de voz para Raspberry Pi o quiosco, usa Piper. Si estás haciendo un podcast con efectos de sonido, prueba Bark. Si estás narrando audiolibros en inglés, usa StyleTTS 2.

¿Necesitas clonación de voz? → Sí: XTTS v2 (mejor calidad, licencia CPML) o F5-TTS (arquitectura más nueva, más rápido, CC-BY-NC-4.0) o Coqui VITS (buena calidad, MPL 2.0). No: Piper (velocidad), StyleTTS 2 (calidad).
¿Necesitas funcionar solo en CPU / Raspberry Pi? → Solo Piper. Kokoro es una alternativa CPU de mayor calidad con licencia Apache 2.0. Todos los demás motores requieren GPU para un rendimiento aceptable.
¿Necesitas audio creativo con sonidos no hablados? → Bark. Ningún otro motor local produce risas, suspiros o música de forma nativa.
¿Necesitas la mejor calidad de narración en inglés? → StyleTTS 2. Supera a todos los demás en naturalidad para habla estilo audiolibro en inglés.
¿Necesitas soporte multilingüe? → XTTS v2 (17 idiomas, clonación multilingüe), Coqui (20+ idiomas), Piper (20+ paquetes de idioma).
¿Necesitas una licencia MIT completamente comercial? → Piper, Bark o StyleTTS 2. Evita XTTS v2 para uso comercial sin revisar el CPML. F5-TTS (CC-BY-NC-4.0) también prohíbe el uso comercial sin acuerdo separado.
¿Necesitas control de voz mediante descripción de texto? → Parler-TTS. Describe la voz que quieres ("un hombre mayor tranquilo hablando despacio") y genera habla con esas características. Sin audio de referencia necesario. GitHub
¿Construyendo un pipeline de asistente de voz? → Piper para salida TTS de baja latencia (ver /es/power-local-llm/build-local-voice-assistant-2026).

Preguntas frecuentes

¿Cuánto audio de referencia necesito para clonar una voz con XTTS v2?

XTTS v2 requiere un mínimo de 3 segundos de audio de referencia limpio, pero con 6 o más segundos los resultados mejoran notablemente. El audio debe ser de un solo hablante con el mínimo ruido de fondo y sin música. Un audio de mayor calidad (grabado en una habitación silenciosa con un buen micrófono) produce mejores clones que el audio comprimido.

¿Puedo usar Piper TTS en un producto comercial?

Sí. Piper está licenciado bajo MIT, que permite uso comercial ilimitado. Debes incluir el aviso de licencia MIT en tu producto. Los modelos de voz (archivos ONNX) pueden tener licencias separadas por voz — revisa la licencia de cada modelo de voz en el repositorio de Piper voices antes de desplegar.

¿Coqui TTS sigue mantenido después de que la empresa cerró?

Sí, pero con ritmo reducido. La empresa Coqui cerró a finales de 2023, pero el repositorio open source (coqui-ai/TTS) lo mantienen colaboradores de la comunidad. Se aplican correcciones de errores y parches de seguridad, pero es poco probable que haya entrenamiento de modelos nuevos importantes sin un esfuerzo comunitario significativo. Para XTTS v2, no se esperan nuevas versiones de modelo de Coqui.

¿Qué motor TTS local tiene el mejor soporte multilingüe?

XTTS v2 admite 17 idiomas con clonación de voz multilingüe — la característica multilingüe más impresionante de cualquier motor local. Coqui TTS tiene más de 20 modelos de idioma pero sin clonación multilingüe. Piper tiene más de 20 paquetes de voz por idioma para inferencia rápida en CPU. Si necesitas clonar una voz y producir habla en varios idiomas desde una sola muestra de referencia, XTTS v2 es la única opción.

¿Puede Bark producir música?

Bark puede producir fragmentos musicales simples junto al habla cuando se le indica con tokens `[music] o [singing]`. No es un generador de música dedicado — las salidas son cortas, inconsistentes y a menudo con artefactos. Para generación real de música, Bark no es la herramienta adecuada. Es mejor usarlo para añadir sonidos emocionales no hablados (risas, tos, suspiros) a la salida de voz.

¿Cuál es el mejor TTS local gratuito para clonación de voz?

F5-TTS (CC-BY-NC-4.0) para uso no comercial — clona voces a partir de ~3 segundos de audio con calidad competitiva con XTTS v2. Para uso comercial, Coqui TTS con backend VITS (MPL 2.0) permite despliegue comercial con condiciones de divulgación de código fuente. XTTS v2 tiene la mejor calidad pero su licencia CPML restringe el despliegue comercial sin acuerdo separado.

¿Puedo ejecutar XTTS v2 en un Mac con Apple Silicon?

Sí, pero solo en CPU — aproximadamente 3× tiempo real en M5 Pro. Actualmente no hay aceleración Metal GPU para motores TTS. A diferencia de whisper.cpp (que tiene soporte Metal completo), los motores TTS funcionan en CPU en Apple Silicon. El rendimiento es utilizable para generación de audio por lotes pero no adecuado para salida de asistente de voz en tiempo real.

¿Qué motor TTS local suena más humano?

StyleTTS 2 para narración en inglés — logra las puntuaciones MOS más altas de cualquier motor TTS en inglés open source (~4,3 vs referencia humana ~4,5). XTTS v2 y F5-TTS son competitivos (~4,1) en naturalidad de voz clonada. Ninguno iguala a ElevenLabs Turbo v2 en su pico de calidad para casos de uso de producción.

Fuentes

Piper TTS en GitHub — Código fuente, paquetes de voz, descargas de modelos ONNX y guía de configuración para Raspberry Pi.
Coqui TTS en GitHub — Código fuente, lista de modelos, documentación de clonación de voz y referencia de API Python.
Documentación de XTTS v2 — Ficha del modelo XTTS v2, licencia (CPML) y API de clonación de voz.
Bark en GitHub — Código fuente, tokens de prompt de audio, descarga del modelo y ejemplos de salida.
StyleTTS 2 en GitHub — Artículo de arquitectura, checkpoints del modelo y guía de inferencia.
F5-TTS en GitHub — TTS de flow-matching con clonación de voz zero-shot, guía de instalación y soporte multilingüe.
Kokoro TTS en GitHub — TTS ligero de alta calidad con licencia Apache 2.0, optimizado para CPU.
Piper voices en Hugging Face — Todas las descargas de paquetes de idioma/voz disponibles con información de licencia por voz.
Muestras de voz de Piper — Demos de audio para todas las voces de Piper en los idiomas admitidos.

← Volver a Power Local LLM