ํต์ฌ ์์
- Piper๋ ์๋์ ์๋ฒ ๋๋ ์ฌ์ฉ์ ์ฌ๋ฐ๋ฅธ ์ ํ์ ๋๋ค. ์์ ํ CPU์์ ๋์ํ๋ฉฐ, Raspberry Pi 5์์ ์ค์๊ฐ์ผ๋ก ์์ฑ์ ์์ฑํ๊ณ ๋ค์ด๋ก๋ ๊ฐ๋ฅํ ์์ฑ ํจํค์ง๋ฅผ ํตํด 20๊ฐ ์ด์์ ์ธ์ด๋ฅผ ์ง์ํฉ๋๋ค. MIT ๋ผ์ด์ ์ค.
- XTTS v2๋ 2026๋ ์ต๊ณ ์ ๋ก์ปฌ ์์ฑ ๋ณต์ ์ต์ ์ ๋๋ค. 6์ด์ ์ฐธ์กฐ ์ค๋์ค๋ก 17๊ฐ ์ธ์ด์์ ์์ฑ์ ๋ณต์ ํฉ๋๋ค. GPU 4~6 GB VRAM์ด ํ์ํฉ๋๋ค. CPML ๋ผ์ด์ ์ค๋ ์์ ์ ์ฌ์ฉ์ ์ ํํฉ๋๋ค.
- F5-TTS๋ zero-shot ์์ฑ ๋ณต์ ์์ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ ๋์์ ๋๋ค. flow-matching ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ~3์ด์ ์ฐธ์กฐ ์ค๋์ค๋ก ์์ฑ์ ๋ณต์ ํฉ๋๋ค. ๋ผ์ด์ ์ค: CC-BY-NC-4.0.
- Coqui TTS๋ ๊ฐ์ฅ ์ ์ฐํ ์คํ์์ค TTS ํดํท์ ๋๋ค. MPL 2.0 ๋ผ์ด์ ์ค ํ์ ๋ค์ํ ๋ฐฑ์๋, ์์ฑ ๋ณต์ , 20๊ฐ ์ด์์ ์ธ์ด๋ฅผ ์ง์ํฉ๋๋ค.
- Bark๋ ๋น์์ฑ ์ค๋์ค๋ฅผ ์์ฑํ๋ ์ ์ผํ ๋ก์ปฌ TTS์ ๋๋ค. ์์ฑ๊ณผ ํจ๊ป ์์, ๊ธฐ์นจ, ํ์จ, ์์ ์กฐ๊ฐ, ํ๊ฒฝ ์ํฅ ํจ๊ณผ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
- StyleTTS 2๋ ์คํ์์ค ์์ด TTS ์์ง ์ค ๊ฐ์ฅ ๋์ MOS๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ํ์ฐ ๊ธฐ๋ฐ ์คํ์ผ ์ ๋ฌ์ด ์์ด ๋ด๋ ์ด์ ์์ ๊ฑฐ์ ์ธ๊ฐ์ ๊ฐ๊น์ด ์์ฐ์ค๋ฌ์์ ์์ฑํฉ๋๋ค. ์์ด ์ ์ฉ, MIT ๋ผ์ด์ ์ค.
- ์์ ์ ์ฌ์ฉ์์ ๋ผ์ด์ ์ค๋ ๋งค์ฐ ์ค์ํฉ๋๋ค. Piper(MIT), Bark(MIT), StyleTTS 2(MIT): ์์ ๋ก์ด ์์ ์ ์ฌ์ฉ. Coqui(MPL 2.0): ์กฐ๊ฑด๋ถ ์์ ์ ํ์ฉ. XTTS v2(CPML): ๊ณ์ฝ ํ์. F5-TTS(CC-BY-NC-4.0): ์์ ์ ์ฌ์ฉ ๊ธ์ง.
- ์ด๋ค ์์ง๋ ๋๊ท๋ชจ ์์ ์ TTS์ ํ์ง๊ณผ ๋๋ฑํ์ง ์์ต๋๋ค. ElevenLabs, Google TTS, Azure TTS๋ ์ฌ์ ํ ๋ก์ปฌ ์์ง์ ๋ฅ๊ฐํฉ๋๋ค. ๋ก์ปฌ TTS๋ ํ๋ผ์ด๋ฒ์, ๋น์ฉ, ์คํ๋ผ์ธ ์ด์์ด ์ค์ํ ๋ ์ฌ๋ฐ๋ฅธ ์ ํ์ ๋๋ค.
๋น ๋ฅธ ์ฌ์ค
- ๊ฐ์ฅ ๋น ๋ฅธ ๋ก์ปฌ TTS: Piper โ Raspberry Pi 5์์ ์ค์๊ฐ, ์ต์ ๋ฐ์คํฌํฑ CPU์์ ์ค์๊ฐ๋ณด๋ค ~10๋ฐฐ ๋น ๋ฆ.
- ์ต๊ณ ์ ์์ฑ ๋ณต์ ํ์ง: XTTS v2 โ 6์ด์ ์ฐธ์กฐ ์ค๋์ค, 17๊ฐ ์ธ์ด๋ก ๋ค๊ตญ์ด ๋ณต์ .
- ๊ฐ์ฅ ๋น ๋ฅธ zero-shot ์์ฑ ๋ณต์ : F5-TTS โ ~3์ด์ ์ค๋์ค, flow-matching, RTX 4070์์ ~3~5๋ฐฐ ์ค์๊ฐ.
- ๊ฐ์ฅ ์ ์ฐํ ์คํ์์ค ํดํท: Coqui TTS โ VITS, Tacotron2, XTTS ๋ฐฑ์๋ ์ง์, 20๊ฐ ์ด์์ ์ธ์ด ๋ชจ๋ธ.
- ์ ์ผํ ์์ฑ์ ์ค๋์ค: Bark โ ์์, ํ์จ, ์์ , ํ๊ฒฝ์. ๋ชจ๋ ์์ง ์ค ๊ฐ์ฅ ๋๋ฆผ.
- ์ต๊ณ ์ ์์ด ๋ด๋ ์ด์ ํ์ง: StyleTTS 2 โ ํ์ฐ ๊ธฐ๋ฐ ์คํ์ผ ์ ๋ฌ, LJSpeech ๋ฒค์น๋งํฌ์์ ๊ฑฐ์ ์ธ๊ฐ์ ๊ฐ๊น์ด MOS.
- VRAM ์๊ตฌ ์ฌํญ: Piper: CPU ์ ์ฉ. Kokoro: CPU / 1~2 GB. StyleTTS 2: 2~4 GB. Coqui VITS: 2~4 GB. F5-TTS: 3~5 GB. XTTS v2: 4~6 GB. Bark: 4~8 GB.
๋ก์ปฌ TTS๊ฐ ์ค์ํ ์ด์
ํด๋ผ์ฐ๋ TTS ์๋น์ค(ElevenLabs, Google TTS, Amazon Polly, Azure Speech)๋ ํธ๋ฆฌํ์ง๋ง ๋ฌธ์๋น ์ฒญ๊ตฌ, ์ค๋์ค ๋ฐ์ดํฐ ๋ณด์กด ์ ์ฑ , ๋คํธ์ํฌ ์๋ณต ์ง์ฐ ์๊ฐ์ด๋ผ๋ ์ธ ๊ฐ์ง ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ก์ปฌ TTS๋ ์ด ์ธ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ๋ชจ๋ ํด๊ฒฐํฉ๋๋ค.
- ํ๋ผ์ด๋ฒ์: ํ ์คํธ ์ฝํ ์ธ ๊ฐ ์ปดํจํฐ๋ฅผ ๋ฒ์ด๋์ง ์์ต๋๋ค. ์๋ฃ ๋ฐ์์ฐ๊ธฐ, ๋ฒ์ ์์ฝ, ๊ธฐ๋ฐ ๋ฌธ์ ๋ญ๋ ์ ํ์์ ์ ๋๋ค.
- ๋น์ฉ: ํด๋ผ์ฐ๋ TTS ๊ฐ๊ฒฉ์ ์ผ๋ฐ์ ์ผ๋ก ๋ฐฑ๋ง ๋ฌธ์๋น $4~$30์ ๋๋ค. ์ 1์ฒ๋ง ๋ฌธ์๋ฅผ ์์ฑํ๋ ๊ฐ๋ฐ์๋ ๋ก์ปฌ ์ค์ ์ผ๋ก ์ $40~$300์ ์ ์ฝํ ์ ์์ต๋๋ค.
- ์ง์ฐ ์๊ฐ: ๋คํธ์ํฌ ์๋ณต ์์. Piper๋ CPU์์ 50ms ๋ฏธ๋ง์ ์ฒซ ์ค๋์ค ํ ํฐ์ ์์ฑํฉ๋๋ค.
- ์ฌ์ฉ์ ์ง์ : ์์ฑ ๋ณต์ (XTTS v2, F5-TTS, Coqui)๋ ๋ช ์ด์ ์ค๋์ค์์ ์ฌ์ฉ์ ์ง์ ์์ฑ์ ๋ง๋ค ์ ์์ต๋๋ค.
- ์คํ๋ผ์ธ ์ด์: ๋นํ๊ธฐ, ๋ณด์ ์์ค, ์ธํฐ๋ท์ด ์๋ ์๊ฒฉ ์ง์ญ์์ ์๋ํฉ๋๋ค.
- ์ค๋งํธ ํ: Piper๋ ํญ์ ์ผ์ ธ ์๋ ๋ก์ปฌ ์์ฑ ์ธํฐํ์ด์ค๋ฅผ ์ํ ์ฃผ์ TTS ๋ ์ด์ด์ ๋๋ค โ Raspberry Pi์์ ์ค์๊ฐ, GPU ๋ถํ์. ์ค๋งํธ ํ์ฉ ๋ก์ปฌ ์์ฑ ์ด์์คํดํธ โ๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
๋น๊ต ํ
ํ๋ก๋์ ๋ฐฐํฌ๋ฅผ ์ํ ๊ฐ์ฅ ์ค์ํ ์งํ์์ ๋น๊ตํ ๋ชจ๋ ๋ก์ปฌ TTS ์์ง.
๐ ํ ๋ฌธ์ฅ์ผ๋ก
Piper๋ CPU์์ ๊ฐ์ฅ ๋น ๋ฅด๊ณ , XTTS v2๋ ์ต๊ณ ์ ์์ฑ ๋ณต์ ํ์ง์ ์ ๊ณตํ๋ฉฐ, F5-TTS๋ ๋ ์๋ก์ด ์ํคํ ์ฒ๋ก zero-shot ๋ณต์ ๋ฅผ ์ ๊ณตํ๊ณ , Bark๋ ์์๊ณผ ์์ ์ ์์ฑํ๋ ์ ์ผํ ์์ง์ด๋ฉฐ, StyleTTS 2๋ ์์ด ๋ด๋ ์ด์ ์์ ์ต๊ณ ์ ์์ฐ์ค๋ฌ์์ ๊ฐ์ต๋๋ค.
๐ฌ ์ฝ๊ฒ ๋งํ๋ฉด
๋๋ถ๋ถ์ ์คํ๋ผ์ธ TTS ์๊ตฌ์ ๋ํด: ์๋์ ๋จ์์ฑ์ ์ํ๋ฉด Piper, ํ์ฉ์ ๋ผ์ด์ ์ค์ ์์ฑ ๋ณต์ ๋ฅผ ์ํ๋ฉด Coqui, GPU๊ฐ ์๊ณ ์ต๊ณ ์ ๋ณต์ ํ์ง์ ์ํ๋ฉด XTTS v2, ๋ ๋น ๋ฅธ zero-shot ๋ณต์ ๋ฅผ ์ํ๋ฉด F5-TTS๋ฅผ ์ฌ์ฉํ์ญ์์ค.
| ๋๊ตฌ | ํ์ง | ์๋ | ์์ฑ ๋ณต์ | ๋ค๊ตญ์ด | VRAM | ๋ผ์ด์ ์ค | MOS(์์ด) |
|---|---|---|---|---|---|---|---|
| Piper | ์ข์ | ๋งค์ฐ ๋น ๋ฆ(CPU) | ์์ | ์(20๊ฐ+ ์ธ์ด) | CPU ์ ์ฉ | MIT | ~3.5 |
| Kokoro | ๋งค์ฐ ์ข์ | ๋น ๋ฆ(CPU) | ์์ | ์์ด + ํ์ฅ ์ค | CPU / 1~2 GB | Apache 2.0 | ~4.0 |
| Coqui TTS | ๋งค์ฐ ์ข์ | ๋ณดํต | ์์ | ์(20๊ฐ+ ์ธ์ด) | 2~4 GB | MPL 2.0 | ~3.8 |
| XTTS v2 | ์ฐ์ | ๋๋ฆผ | ์์(์ต๊ณ ) | ์(17๊ฐ ์ธ์ด) | 4~6 GB | CPML(์์ ์ ์ ํ) | ~4.1 |
| F5-TTS | ์ฐ์ | ๋ณดํต~๋น ๋ฆ | ์์(zero-shot) | ์(๋ค๊ตญ์ด) | 3~5 GB | CC-BY-NC-4.0 | ~4.1 |
| Bark | ๋ ํนํจ/๊ฐ๋ณ์ | ๋๋ฆผ | ์ ํ์ | ์(๋ค๊ตญ์ด) | 4~8 GB | MIT | ~3.2~4.0(๊ฐ๋ณ์ ) |
| StyleTTS 2 | ์ฐ์(์์ด) | ๋ณดํต | ์์ | ์ฃผ๋ก ์์ด | 2~4 GB | MIT | ~4.3 |
MOS(mean opinion score)๋ 1~5 ์ฒ๋๋ก 5๊ฐ ์ธ๊ฐ ์์ฑ๊ณผ ๊ตฌ๋ณํ ์ ์์์ ์๋ฏธํฉ๋๋ค. ์ ์๋ ๊ทผ์ฌ์น์ด๋ฉฐ ๊ณต๊ฐ๋ ๋ฒค์น๋งํฌ ๋๋ ์ปค๋ฎค๋ํฐ ํ๊ฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ธ๊ฐ ์ฐธ์กฐ MOS: ~4.5.
์ฒซ ์ค๋์ค ์ง์ฐ ์๊ฐ ๋น๊ต
์ฒซ ์ค๋์ค ์ง์ฐ ์๊ฐ์ ํ ์คํธ ์ ๋ ฅ๋ถํฐ ์ฒซ ๋ฒ์งธ ์ฒญ์ทจ ๊ฐ๋ฅํ ์ถ๋ ฅ๊น์ง์ ์๊ฐ์ ๋๋ค. ์์ฑ ์ด์์คํดํธ์ ์ธํฐ๋ํฐ๋ธ ์ ํ๋ฆฌ์ผ์ด์ ์ ํ์์ ์ ๋๋ค.
| ์์ง | ์ฒซ ์ค๋์ค(RTX 4070) | ์ฒซ ์ค๋์ค(CPU) | ์ฒซ ์ค๋์ค(M5 Pro) |
|---|---|---|---|
| Piper | ~30 ms | ~50 ms | ~40 ms |
| Kokoro | ~50 ms | ~80 ms | ~60 ms |
| Coqui VITS | ~100 ms | ~300 ms | ~150 ms |
| StyleTTS 2 | ~150 ms | ~500 ms | ~200 ms |
| F5-TTS | ~200 ms | ~800 ms | ~300 ms |
| XTTS v2 | ~300 ms | ~1500 ms | ~500 ms |
| Bark | ~500 ms | ~3000 ms | ~800 ms |
Piper TTS โ ๊ฐ์ฅ ๋น ๋ฅธ ๊ฒฝ๋ ์ต์
Piper๋ ํ ์๋ํ ๋ฐ ์๋ฒ ๋๋ ์ฌ์ฉ์ ์ํด Rhasspy๊ฐ ๊ฐ๋ฐํ ๋น ๋ฅธ ๋ก์ปฌ ์์ฑ ํฉ์ฑ ์์คํ ์ ๋๋ค. onnxruntime ๋ฐฑ์๋๋ฅผ ๊ฐ์ถ VITS ๊ธฐ๋ฐ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ฉฐ, GPU ์์ด Raspberry Pi 4 ๋๋ 5์์ ์ค์๊ฐ์ผ๋ก ๋์ํฉ๋๋ค.
- ์ํคํ ์ฒ: ONNX ์ถ๋ก ์ด ์๋ VITS ์ ๊ฒฝ๋ง TTS. ๋จ์ผ ๋ณด๋ ์ปดํจํฐ์ ์๋ฒ ๋๋ Linux์ฉ์ผ๋ก ์ค๊ณ.
- ์ค์น:
pip install piper-tts. ์ฌ์ ํ์ต๋ ์์ฑ ํจํค์ง๋ Hugging Face์ Piper voices ์ ์ฅ์์์ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค. - ์์ฑ ํจํค์ง: 20๊ฐ ์ด์์ ์ธ์ด, ์ธ์ด๋น ๋ค์ํ ์์ฑ ์ต์ . ๊ฐ ์์ฑ ํจํค์ง๋ 20~200 MB์ ONNX ๋ชจ๋ธ ํ์ผ์ ๋๋ค.
- ์๋: ์ต์ ๋ฐ์คํฌํฑ CPU์์ ์ค์๊ฐ๋ณด๋ค ~10๋ฐฐ ๋น ๋ฆ ๋๋ค. Raspberry Pi 5์์ ์ค์๊ฐ. ์ฒซ ์ค๋์ค ์ง์ฐ ์๊ฐ 50ms ๋ฏธ๋ง.
- Apple Silicon: M5 Pro์์ ~15๋ฐฐ ์ค์๊ฐ(CPU, ARM NEON).
- ์ด์์ ์ธ ์ฉ๋: ํ ์ด์์คํดํธ, ํค์ค์คํฌ ์ฅ์น, ์๋ฒ ๋๋ ์์ฑ ์ธํฐํ์ด์ค, GPU๊ฐ ์๋ ํ๋ผ์ด๋ฒ์ ์ค์ฌ์ ๋ญ๋ .
- ์ ํ ์ฌํญ: ์์ฑ ๋ณต์ ์์. ํ์ง์ "์ข์" โ XTTS v2 ๋๋ StyleTTS 2์ ๋นํด ๋ช ํํ ํฉ์ฑ์์ผ๋ก ๋ค๋ฆฝ๋๋ค.
- ๋ผ์ด์ ์ค: MIT โ ์์ ํ ์์ ์ ์ฌ์ฉ ๊ฐ๋ฅ.
- ์ํ ๋ฃ๊ธฐ: Piper ์์ฑ ์ํ
- Kokoro TTS โ Piper์ ๋์: Kokoro TTS๋ CPU์์ ๋น ๋ฅธ ์๋๋ฅผ ์ ์งํ๋ฉด์ Piper๋ณด๋ค ๋ ์์ฐ์ค๋ฌ์ด ์์ง์ ๋ฌ์ฑํฉ๋๋ค. Apache 2.0 ๋ผ์ด์ ์ค. Kokoro
Coqui TTS โ ์ต๊ณ ์ ์คํ์์ค ํดํท
Coqui TTS๋ ๋ค์ํ ๋ชจ๋ธ ์ํคํ ์ฒ์ ์์ฑ ๋ณต์ ๋ฅผ ์ง์ํ๋ Python ์์ฑ ํฉ์ฑ ํดํท์ ๋๋ค. Coqui ํ์ฌ(2023๋ ๋ง ๋ฌธ์ ๋ซ์)๊ฐ ๊ฐ๋ฐํ์ผ๋ฉฐ ํ์ฌ๋ ์คํ์์ค ์ปค๋ฎค๋ํฐ์์ ์ ์ง ๊ด๋ฆฌํ๊ณ ์์ต๋๋ค.
- ์ค์น:
pip install TTS. ๋ชจ๋ธ์ ์ฒซ ์ฌ์ฉ ์ ์๋์ผ๋ก ๋ค์ด๋ก๋๋ฉ๋๋ค. - ๋ฐฑ์๋ ์ต์ : VITS(๊ฐ์ฅ ๋น ๋ฆ, ์ข์ ํ์ง), Tacotron2(๊ตฌํ, ๋ ๋๋ฆผ), XTTS(์ต๊ณ ํ์ง).
- ์ธ์ด:
tts --list_models๋ฅผ ํตํด 20๊ฐ ์ด์์ ์ธ์ด ๋ชจ๋ธ ์ฌ์ฉ ๊ฐ๋ฅ. - VRAM: VITS ๋ฐฑ์๋: 2~4 GB; XTTS ๋ฐฑ์๋: 4~6 GB.
- Apple Silicon: M5 Pro์์ ~8๋ฐฐ ์ค์๊ฐ(CPU). Metal GPU ๊ฐ์ ์์.
- ์ปค๋ฎค๋ํฐ ํํฉ: Coqui Inc๋ 2023๋
๋ง์ ๋ฌธ์ ๋ซ์์ต๋๋ค. ์คํ์์ค ์ ์ฅ์(
coqui-ai/TTS)๋ ์ปค๋ฎค๋ํฐ์์ ์ ์ง ๊ด๋ฆฌํฉ๋๋ค. - ๋ผ์ด์ ์ค: MPL 2.0 โ ์์ ์ ์ฌ์ฉ ํ์ฉ, ๋จ ์์ ์ฌํญ์ ์์ค ์ฝ๋๋ฅผ ๊ณต๊ฐํด์ผ ํฉ๋๋ค.
- ์ด์์ ์ธ ์ฉ๋: ํ์ฉ์ ๋ผ์ด์ ์ค์ ์คํ์์ค ํดํท์ผ๋ก ์์ฑ ๋ณต์ ๋ฅผ ์ํ๋ ๊ฐ๋ฐ์.
XTTS v2 โ ์ต๊ณ ์ ์์ฑ ๋ณต์ ํ์ง
XTTS v2(Coqui ์ ์)๋ 2026๋ ๋ก์ปฌ์์ ์ฌ์ฉ ๊ฐ๋ฅํ ์ต๊ณ ํ์ง์ ์์ฑ ๋ณต์ ์์ง์ ๋๋ค. ํฌ๋ก์ค ์ธ์ด ์ ๋ฌ์ด ์๋ GPT ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ์์ฑ ๋ณต์ : 6์ด์ ์ฐธ์กฐ ์ค๋์ค๋ก ์ค๋๋ ฅ ์๋ ์์ฑ ๋ณต์ ๊ฐ ๊ฐ๋ฅํฉ๋๋ค. 3์ด๋ ํ์ฉ ๊ฐ๋ฅํ ํ์ง์ ์์ฑํฉ๋๋ค.
- ๋ค๊ตญ์ด ๋ณต์ : ํ ์ธ์ด๋ก ์์ฑ์ ๋ณต์ ํ๊ณ ๋์ผํ ์์ฑ ํน์ฑ์ผ๋ก 17๊ฐ ์ธ์ด์์ ๋งํ๊ธฐ๋ฅผ ์์ฑํฉ๋๋ค.
- VRAM: GPU 4~6 GB ๊ถ์ฅ. CPU์์๋ ๋์ํ์ง๋ง ~5~10๋ฐฐ ๋๋ฆฝ๋๋ค.
- ์๋: ๋๋ฆผ โ RTX 4070์์ ~2๋ฐฐ ์ค์๊ฐ. ์ค์๊ฐ ์์ฑ ์ด์์คํดํธ ํ์ดํ๋ผ์ธ์ ์ ํฉํ์ง ์์ต๋๋ค.
- Apple Silicon: M5 Pro์์ ~3๋ฐฐ ์ค์๊ฐ(CPU, Metal ๊ฐ์ ์์).
- ์ํ ๋ฃ๊ธฐ: Hugging Face์ XTTS v2 ๋ฐ๋ชจ
- ๋ผ์ด์ ์ค: CPML. ์ฐ๊ตฌ ๋ฐ ๊ฐ์ธ์ ์ฌ์ฉ์ ๋ฌด๋ฃ. ์์ ์ ์ฌ์ฉ์๋ ๋ผ์ด์ ์ค ๊ณ์ฝ์ด ํ์ํฉ๋๋ค.
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
tts.tts_to_file(
text="์๋
ํ์ธ์, ์ ๋ ๋น์ ์ ์์ฑ ์ด์์คํดํธ์
๋๋ค.",
speaker_wav="reference_voice.wav",
language="ko",
file_path="output.wav"
)โ ๏ธWarning: XTTS v2๋ CPML ๋ผ์ด์ ์ค์ ์ ์ฉ์ ๋ฐ์ต๋๋ค. ์์ ์ ์ฌ์ฉ์๋ ๋ผ์ด์ ์ค ๊ณ์ฝ์ด ํ์ํฉ๋๋ค. ๋ฐฐํฌ ์ ๋ผ์ด์ ์ค ์กฐ๊ฑด์ ๊ฒํ ํ์ญ์์ค.
Bark โ ์์ฑ์ ๋์ด์ ์์ฑ์ ์ค๋์ค
Bark(Suno AI ์ ์)๋ ํ ์คํธ ํ๋กฌํํธ์์ ์์ฑ, ์์ , ์์, ๊ธฐ์นจ, ํ์จ ๋ฐ ํ๊ฒฝ์์ ์์ฑํ๋ ํ ์คํธ-์ค๋์ค ์์ฑ ๋ชจ๋ธ์ ๋๋ค.
- ๊ณ ์ ํ ๊ธฐ๋ฅ: ํ
์คํธ์ `[laughs]
,[sighs],[music]`๋ฅผ ํฌํจํ๋ฉด Bark๊ฐ ์์ฑ๊ณผ ํจ๊ป ํด๋น ์ฌ์ด๋๋ฅผ ์์ฑํฉ๋๋ค. - ์๋: ๋๋ฆผ โ RTX 4090์์๋ ์ค์๊ฐ๋ณด๋ค 2~4๋ฐฐ ๋๋ฆฝ๋๋ค.
- Apple Silicon: M5 Pro์์ ~1.5๋ฐฐ ์ค์๊ฐ(CPU, ๋ถ๋ถ์ MPS).
- ์ด์์ ์ธ ์ฉ๋: ์ฐฝ์์ ์ค๋์ค, ์ํฅ ํจ๊ณผ๊ฐ ์๋ ํ์บ์คํธ ์ ์, ์ธํฐ๋ํฐ๋ธ ํฝ์ .
- VRAM: GPU 4~8 GB.
- ์ค์น:
pip install suno-bark. ๋ชจ๋ธ์ ์ฒซ ์คํ ์ ๋ค์ด๋ก๋๋ฉ๋๋ค(~2 GB). - ๋ผ์ด์ ์ค: MIT โ ์์ ํ ์์ ์ ์ฌ์ฉ ๊ฐ๋ฅ.
- ์ ํ ์ฌํญ: ์ ๋ขฐํ ์ ์๋ ์์ฑ ๋ณต์ ์์.
StyleTTS 2 โ ์ต๊ณ ์ ์์ฐ์ค๋ฌ์ด ํ์ง
StyleTTS 2๋ LJSpeech ๋ฒค์น๋งํฌ์์ ๊ฑฐ์ ์ธ๊ฐ์ ๊ฐ๊น์ด MOS๋ฅผ ๋ฌ์ฑํ๋ ํ์ฐ ๊ธฐ๋ฐ TTS ๋ชจ๋ธ์ ๋๋ค.
- ํ์ง: LJSpeech ๋ฒค์น๋งํฌ์์ ์คํ์์ค ์์ด TTS ์์ง ์ค ๊ฐ์ฅ ๋์ MOS ์ ์.
- ์ด์์ ์ธ ์ฉ๋: ์ค๋์ค๋ถ ๋ด๋ ์ด์ , ์ ๋ฌธ ๋ณด์ด์ค์ค๋ฒ, ํ์บ์คํธ ์ ์.
- ์ค์น: GitHub ์ ์ฅ์ ํด๋ก ,
pip install -r requirements.txt, ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ ๋ค์ด๋ก๋(~500 MB). - ์ธ์ด ์ง์: ์ฃผ๋ก ์์ด. ์์ด ์ด์ธ์ ์ธ์ด ์ฌ์ฉ์ ๊ถ์ฅํ์ง ์์ต๋๋ค.
- ์์ฑ ๋ณต์ : ์ง์๋์ง ์์ต๋๋ค.
- VRAM: GPU 2~4 GB. RTX 4070์์ ~5~8๋ฐฐ ์ค์๊ฐ.
- ๋ผ์ด์ ์ค: MIT โ ์์ ํ ์์ ์ ์ฌ์ฉ ๊ฐ๋ฅ.
- ์ํ ๋ฃ๊ธฐ: GitHub์ StyleTTS 2
F5-TTS โ Zero-shot ์์ฑ ๋ณต์ , ์์ ๊ฐ๋ฐฉํ
F5-TTS๋ zero-shot ์์ฑ ๋ณต์ ๊ฐ ์๋ flow-matching ๊ธฐ๋ฐ TTS ๋ชจ๋ธ๋ก โ fine-tuning ์์ด ~3์ด์ ์ฐธ์กฐ ์ค๋์ค์์ ๋ชจ๋ ์์ฑ์ ๋ณต์ ํฉ๋๋ค.
- ์ํคํ ์ฒ: Flow-matching(ํ์ฐ์ ๋ณํ). ์ผ๋ฐ์ ์ผ๋ก ๊ฒฝ์๋ ฅ ์๋ ํ์ง๋ก ๋ ๋น ๋ฅธ ์ถ๋ก ์ ์ ๊ณตํฉ๋๋ค.
- ์์ฑ ๋ณต์ : ~3์ด์ ์ฐธ์กฐ ์ค๋์ค๋ก zero-shot ์์ฑ ๋ณต์ ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
- ํ์ง: ์์ด์์ XTTS v2์ ๊ฒฝ์์ . ์ปค๋ฎค๋ํฐ ํ๊ฐ์์ MOS ์ฝ ~4.1.
- ์๋: RTX 4070์์ ~3~5๋ฐฐ ์ค์๊ฐ.
- VRAM: GPU 3~5 GB ๊ถ์ฅ.
- ์ค์น:
pip install f5-tts๋๋ GitHub์์ ํด๋ก . - ๋ผ์ด์ ์ค: CC-BY-NC-4.0 โ ๋น์์ ์ ์ฌ์ฉ๋ง ๊ฐ๋ฅ.
- ์ค์ํ ์ด์ : XTTS v2๊ฐ ๋๋ฌด ๋๋ฆฌ๊ฑฐ๋ CPML ๋ผ์ด์ ์ค๊ฐ ์ฐ๋ ค๋๋ ๊ฒฝ์ฐ F5-TTS๊ฐ ์ฃผ์ ๋์์ ๋๋ค.
๋ผ์ด์ ์ค ๋ถ์ โ ์์ ์ ์ฌ์ฉ์ ์ค์
๋ผ์ด์ ์ค ์กฐ๊ฑด์ ํ๋ก๋์ ๋ฐฐํฌ์์ ๊ธฐ๋ณธ์ ์ ๋๋ค.
| ๋๊ตฌ | ๋ผ์ด์ ์ค | ์์ ์ ? | ์ฃผ์ ์กฐ๊ฑด |
|---|---|---|---|
| Piper | MIT | ์ โ ์ ํ ์์ | MIT ์ ์๊ถ ๊ณ ์ง ํฌํจ |
| Kokoro | Apache 2.0 | ์ โ ์ ํ ์์ | Apache 2.0 ๊ณ ์ง ํฌํจ |
| Coqui TTS | MPL 2.0 | ์ โ ์กฐ๊ฑด ์์ | ์์ ์ฌํญ์ ์์ค ์ฝ๋ ๊ณต๊ฐ ํ์ |
| XTTS v2 | CPML | ์ฐ๊ตฌ/๊ฐ์ธ์ฉ๋ง | ์์ ์ ์ฌ์ฉ์ ๋ผ์ด์ ์ค ๊ณ์ฝ ํ์ |
| F5-TTS | CC-BY-NC-4.0 | ๋น์์ ์ ๋ง | ๋ณ๋ ๊ณ์ฝ ์์ด ์์ ์ ์ฌ์ฉ ๊ธ์ง |
| Bark | MIT | ์ โ ์ ํ ์์ | MIT ์ ์๊ถ ๊ณ ์ง ํฌํจ |
| StyleTTS 2 | MIT | ์ โ ์ ํ ์์ | MIT ์ ์๊ถ ๊ณ ์ง ํฌํจ |
๐Note: Coqui TTS(ํดํท, MPL 2.0)์ XTTS v2(ํน์ ๋ชจ๋ธ, CPML)๋ ์๋ก ๋ค๋ฅธ ๋ผ์ด์ ์ค๋ฅผ ๊ฐ์ง๋๋ค. CPML ์ ํ์ ํนํ XTTS v2 ๋ชจ๋ธ ๊ฐ์ค์น์ ์ ์ฉ๋ฉ๋๋ค.
๋ก์ปฌ TTS vs ElevenLabs ๋ฐ ํด๋ผ์ฐ๋ TTS
ElevenLabs, Google Text-to-Speech, Azure Speech๋ 2026๋ TTS์ ํ์ง ์ํ์ ์ผ๋ก ๋จ์ ์์ต๋๋ค.
- ํ์ง ์ํ์ : ElevenLabs > StyleTTS 2 โ XTTS v2 > F5-TTS โ Coqui TTS > Piper.
- ์ง์ฐ ์๊ฐ: ๋ก์ปฌ Piper(์ฒซ ์ค๋์ค ~30~50 ms)๋ ElevenLabs API ์๋ณต(~300~500 ms)๋ณด๋ค ๋น ๋ฆ ๋๋ค.
- ๋น์ฉ: ElevenLabs๋ ์ $5~99 ์๊ธ์ ์ฒญ๊ตฌํฉ๋๋ค. ๋ก์ปฌ TTS๋ ์ด๊ธฐ ํ๋์จ์ด ์ดํ $0์ ๋๋ค.
- ํ๋ผ์ด๋ฒ์: ๋ก์ปฌ TTS = ์ค๋์ค ๋ฐ์ดํฐ๊ฐ ์ด๋์๋ ์ ์ก๋์ง ์์. ๋ฏผ๊ฐํ ์ฝํ ์ธ ์ ํ์์ ์ ๋๋ค.
- ์คํ๋ผ์ธ ๊ธฐ๋ฅ: ๋ก์ปฌ = ์์ ์คํ๋ผ์ธ. ElevenLabs = ์ธํฐ๋ท ํ์.
- ํด๋ผ์ฐ๋๋ฅผ ์ฌ์ฉํ ๋: ์ ๋ฌธ ์์ฑ ์ ์, ์ต๊ณ ํ์ง์ด ํ์ํ ๊ณ ๊ฐ ๋๋ฉด ์ ํ.
- ๋ก์ปฌ์ ์ฌ์ฉํ ๋: ํ๋ผ์ด๋ฒ์ ์ค์ ์ค๋์ค, ์๋ฒ ๋๋ ์ฅ์น, ๋น์ฉ์ ๋ฏผ๊ฐํ ๋ฐฐ์น ์ฒ๋ฆฌ, ์คํ๋ผ์ธ ํ๊ฒฝ.
์ ํ ๋ฐฉ๋ฒ
์๊ตฌ ์ฌํญ์์ ์ฌ๋ฐ๋ฅธ TTS ์์ง๊น์ง์ ๊ฒฐ์ ๋ค์ด์ด๊ทธ๋จ:
๐ ํ ๋ฌธ์ฅ์ผ๋ก
์์ฑ ๋ณต์ ๊ฐ ํ์ํฉ๋๊น? โ XTTS v2(์ต๊ณ ํ์ง) ๋๋ F5-TTS(๋ ๋น ๋ฆ) ๋๋ Coqui TTS(์คํ ๋ผ์ด์ ์ค). CPU ์๋๊ฐ ํ์ํฉ๋๊น? โ Piper. ์ฐฝ์์ ์ค๋์ค๊ฐ ํ์ํฉ๋๊น? โ Bark. ์ต๊ณ ์ ์์ด ํ์ง์ด ํ์ํฉ๋๊น? โ StyleTTS 2.
๐ฌ ์ฝ๊ฒ ๋งํ๋ฉด
๋๊ตฐ๊ฐ์ ์์ฑ์ ๋ณต์ ํ๋ ค๋ฉด ํ์ง์ ์ํด XTTS v2, ๋ ๋น ๋ฅธ ์ถ๋ก ์ ์ํด F5-TTS, ํ์ฉ์ ๋ผ์ด์ ์ค๋ฅผ ์ํด Coqui VITS๋ฅผ ์ฌ์ฉํ์ญ์์ค. Raspberry Pi์ฉ ์์ฑ ์ธํฐํ์ด์ค๋ฅผ ๊ตฌ์ถํ๋ ๊ฒฝ์ฐ Piper๋ฅผ ์ฌ์ฉํ์ญ์์ค. ์ํฅ ํจ๊ณผ๊ฐ ์๋ ํ์บ์คํธ๋ฅผ ๋ง๋๋ ๊ฒฝ์ฐ Bark๋ฅผ ์๋ํ์ญ์์ค.
- ์์ฑ ๋ณต์ ๊ฐ ํ์ํฉ๋๊น? โ ์: XTTS v2(์ต๊ณ ํ์ง, CPML) ๋๋ F5-TTS(๋ ๋น ๋ฆ, CC-BY-NC-4.0) ๋๋ Coqui VITS(์ข์ ํ์ง, MPL 2.0). ์๋์ค: Piper(์๋), StyleTTS 2(ํ์ง).
- CPU / Raspberry Pi ์ ์ฉ์ผ๋ก ์คํํด์ผ ํฉ๋๊น? โ Piper๋ง. Kokoro๋ ๋ ๋์ ํ์ง CPU ๋์์ ๋๋ค.
- ๋น์์ฑ ์ฌ์ด๋๊ฐ ์๋ ์ฐฝ์์ ์ค๋์ค๊ฐ ํ์ํฉ๋๊น? โ Bark.
- ์ต๊ณ ์ ์์ด ๋ด๋ ์ด์ ํ์ง์ด ํ์ํฉ๋๊น? โ StyleTTS 2.
- ๋ค๊ตญ์ด ์ง์์ด ํ์ํฉ๋๊น? โ XTTS v2(17๊ฐ ์ธ์ด, ๋ค๊ตญ์ด ๋ณต์ ), Coqui(20๊ฐ+ ์ธ์ด), Piper(20๊ฐ+ ์ธ์ด ํจํค์ง).
- ์์ ํ ์์ ์ ์ธ MIT ๋ผ์ด์ ์ค๊ฐ ํ์ํฉ๋๊น? โ Piper, Bark ๋๋ StyleTTS 2.
- ์์ฑ ์ด์์คํดํธ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถ ์ค์ ๋๊น? โ ๋ฎ์ ์ง์ฐ ์๊ฐ TTS ์ถ๋ ฅ์ ์ํด Piper๋ฅผ ์ฌ์ฉํ์ญ์์ค(/ko/power-local-llm/build-local-voice-assistant-2026 ์ฐธ์กฐ).
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
XTTS v2๋ก ์์ฑ์ ๋ณต์ ํ๋ ค๋ฉด ์ผ๋ง๋ ๋ง์ ์ฐธ์กฐ ์ค๋์ค๊ฐ ํ์ํฉ๋๊น?
XTTS v2๋ ์ต์ 3์ด์ ๊นจ๋ํ ์ฐธ์กฐ ์ค๋์ค๊ฐ ํ์ํ์ง๋ง 6์ด ์ด์์ด๋ฉด ๊ฒฐ๊ณผ๊ฐ ํ์ ํ ํฅ์๋ฉ๋๋ค. ์ค๋์ค๋ ๋ฐฐ๊ฒฝ ์์์ด ์ต์ํ๋ ๋จ์ผ ํ์์ฌ์ผ ํฉ๋๋ค.
Piper TTS๋ฅผ ์์ ์ ์ ํ์ ์ฌ์ฉํ ์ ์์ต๋๊น?
์. Piper๋ MIT ๋ผ์ด์ ์ค๋ก ์ ํ ์๋ ์์ ์ ์ฌ์ฉ์ด ํ์ฉ๋ฉ๋๋ค. ์์ฑ ๋ชจ๋ธ(ONNX ํ์ผ)์ ์์ฑ๋ณ๋ก ๋ณ๋ ๋ผ์ด์ ์ค๊ฐ ์์ ์ ์์ผ๋ฏ๋ก ๋ฐฐํฌ ์ ํ์ธํ์ญ์์ค.
ํ์ฌ๊ฐ ๋ฌธ์ ๋ซ์ ํ์๋ Coqui TTS๊ฐ ์ ์ง ๊ด๋ฆฌ๋ฉ๋๊น?
์, ํ์ง๋ง ์๋๊ฐ ์ค์ด๋ค์์ต๋๋ค. Coqui ํ์ฌ๋ 2023๋
๋ง์ ๋ฌธ์ ๋ซ์์ง๋ง ์คํ์์ค ์ ์ฅ์(coqui-ai/TTS)๋ ์ปค๋ฎค๋ํฐ ๊ธฐ์ฌ์๋ค์ด ์ ์ง ๊ด๋ฆฌํฉ๋๋ค.
์ด๋ค ๋ก์ปฌ TTS ์์ง์ด ์ต๊ณ ์ ๋ค๊ตญ์ด ์ง์์ ๊ฐ์ง๊ณ ์์ต๋๊น?
XTTS v2๋ 17๊ฐ ์ธ์ด๋ฅผ ์ง์ํ๋ฉฐ ๋ค๊ตญ์ด ์์ฑ ๋ณต์ ๊ฐ ๊ฐ๋ฅํฉ๋๋ค. Coqui TTS๋ 20๊ฐ ์ด์์ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ์ถ๊ณ ์์ต๋๋ค. ๋จ์ผ ์ฐธ์กฐ ์ํ์์ ์ฌ๋ฌ ์ธ์ด๋ก ๋ณต์ ํด์ผ ํ๋ค๋ฉด XTTS v2๊ฐ ์ ์ผํ ์ต์ ์ ๋๋ค.
Bark๊ฐ ์์ ์ ์์ฑํ ์ ์์ต๋๊น?
Bark๋ `[music]` ํ ํฐ์ผ๋ก ๊ฐ๋จํ ์์ ์กฐ๊ฐ์ ์์ฑํ ์ ์์ต๋๋ค. ์ ์ฉ ์์ ์์ฑ๊ธฐ๊ฐ ์๋๋๋ค โ ์ถ๋ ฅ์ด ์งง๊ณ ์ผ๊ด๋์ง ์์ต๋๋ค.
์์ฑ ๋ณต์ ๋ฅผ ์ํ ์ต๊ณ ์ ๋ฌด๋ฃ ๋ก์ปฌ TTS๋ ๋ฌด์์ ๋๊น?
F5-TTS(CC-BY-NC-4.0)๋ ๋น์์ ์ ์ฌ์ฉ์ ์ ํฉํฉ๋๋ค. ์์ ์ ์ฌ์ฉ์ ๊ฒฝ์ฐ Coqui TTS(VITS ๋ฐฑ์๋, MPL 2.0). XTTS v2๋ ์ต๊ณ ์ ํ์ง์ด์ง๋ง CPML์ด ์์ ์ ๋ฐฐํฌ๋ฅผ ์ ํํฉ๋๋ค.
Apple Silicon Mac์์ XTTS v2๋ฅผ ์คํํ ์ ์์ต๋๊น?
์, ํ์ง๋ง CPU ์ ์ฉ โ M5 Pro์์ ์ฝ 3๋ฐฐ ์ค์๊ฐ์ ๋๋ค. ํ์ฌ TTS ์์ง์ ์ํ Metal GPU ๊ฐ์์ด ์์ต๋๋ค.
์ด๋ค ๋ก์ปฌ TTS ์์ง์ด ๊ฐ์ฅ ์ธ๊ฐ์ฒ๋ผ ๋ค๋ฆฝ๋๊น?
์์ด ๋ด๋ ์ด์ ์ ๊ฒฝ์ฐ StyleTTS 2 โ MOS ~4.3. XTTS v2์ F5-TTS๋ ๋ณต์ ๋ ์์ฑ ์์ฐ์ค๋ฌ์์์ ๊ฒฝ์์ (~4.1). ์ด๋ค ๊ฒ๋ ElevenLabs Turbo v2์ ํ์ ํ์ง ์์ต๋๋ค.
์ฐธ๊ณ ์๋ฃ
- GitHub์ Piper TTS โ ์์ค ์ฝ๋, ์์ฑ ํจํค์ง, ONNX ๋ชจ๋ธ ๋ค์ด๋ก๋ ๋ฐ Raspberry Pi ์ค์ ๊ฐ์ด๋.
- GitHub์ Coqui TTS โ ์์ค ์ฝ๋, ๋ชจ๋ธ ๋ชฉ๋ก, ์์ฑ ๋ณต์ ๋ฌธ์ ๋ฐ Python API ์ฐธ์กฐ.
- XTTS v2 ๋ฌธ์ โ XTTS v2 ๋ชจ๋ธ ์นด๋, ๋ผ์ด์ ์ค(CPML) ๋ฐ ์์ฑ ๋ณต์ API.
- GitHub์ Bark โ ์์ค ์ฝ๋, ์ค๋์ค ํ๋กฌํํธ ํ ํฐ, ๋ชจ๋ธ ๋ค์ด๋ก๋ ๋ฐ ์ถ๋ ฅ ์์ .
- GitHub์ StyleTTS 2 โ ์ํคํ ์ฒ ๋ ผ๋ฌธ, ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ ๋ฐ ์ถ๋ก ๊ฐ์ด๋.
- GitHub์ F5-TTS โ zero-shot ์์ฑ ๋ณต์ ๊ฐ ์๋ flow-matching TTS.
- GitHub์ Kokoro TTS โ Apache 2.0 ๋ผ์ด์ ์ค์ ๊ฒฝ๋ ๊ณ ํ์ง TTS, CPU์ ์ต์ ํ.
- Hugging Face์ Piper voices โ ์์ฑ๋ณ ๋ผ์ด์ ์ค ์ ๋ณด์ ํจ๊ป ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ ์ธ์ด/์์ฑ ํจํค์ง.
- Piper ์์ฑ ์ํ โ ์ง์๋๋ ์ธ์ด์ ๋ชจ๋ Piper ์์ฑ์ ๋ํ ์ค๋์ค ๋ฐ๋ชจ.