Skip to main content
PromptQuorumPromptQuorum
ํ™ˆ/๊ณ ๊ธ‰ ๋กœ์ปฌ LLM/๋กœ์ปฌ TTS ๋ฐ ์Œ์„ฑ ๋ณต์ œ 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2
Voice, Speech & Multimodal

๋กœ์ปฌ TTS ๋ฐ ์Œ์„ฑ ๋ณต์ œ 2026: Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2

ยท14๋ถ„ ๋ถ„๋Ÿ‰ยทHans Kuepper ์ € ยท PromptQuorum ์ฐฝ๋ฆฝ์ž, ๋ฉ€ํ‹ฐ ๋ชจ๋ธ AI ๋””์ŠคํŒจ์น˜ ๋„๊ตฌ ยท PromptQuorum

Piper๋Š” CPU ์†๋„์™€ ์ž„๋ฒ ๋””๋“œ ์žฅ์น˜์—์„œ ๊ฐ€์žฅ ๋น ๋ฅธ ๋กœ์ปฌ TTS ์—”์ง„์ž…๋‹ˆ๋‹ค โ€” Raspberry Pi 5์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋™์ž‘ํ•˜๋ฉฐ GPU๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. XTTS v2๋Š” 2026๋…„ ์ตœ๊ณ ์˜ ๋กœ์ปฌ ์Œ์„ฑ ๋ณต์ œ ์˜ต์…˜์œผ๋กœ(6์ดˆ์˜ ์ฐธ์กฐ ์˜ค๋””์˜ค โ†’ 17๊ฐœ ์–ธ์–ด๋กœ ๋ณต์ œ๋œ ์Œ์„ฑ), 4~6 GB์˜ GPU VRAM๊ณผ ์ƒ์—…์  ์‚ฌ์šฉ์„ ์œ„ํ•œ ๋ผ์ด์„ ์Šค ๊ณ„์•ฝ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. F5-TTS๋Š” zero-shot ์Œ์„ฑ ๋ณต์ œ๋ฅผ ์œ„ํ•œ ๋” ํ˜„๋Œ€์ ์ธ flow-matching ๋Œ€์•ˆ์ž…๋‹ˆ๋‹ค. StyleTTS 2๋Š” ๊ฐ€์žฅ ์ž์—ฐ์Šค๋Ÿฌ์šด ์˜์–ด ๋‚ด๋ ˆ์ด์…˜์„ ์ƒ์„ฑํ•˜์ง€๋งŒ ์˜์–ด ์ „์šฉ์ด๋ฉฐ ์Œ์„ฑ ๋ณต์ œ ๊ธฐ๋Šฅ์ด ์—†์Šต๋‹ˆ๋‹ค.

2026๋…„ ๋กœ์ปฌ ์Œ์„ฑ ํ•ฉ์„ฑ ์—”์ง„ ์—ฌ์„ฏ ๊ฐ€์ง€๊ฐ€ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ์œ„ํ•ด ๊ฒฝ์Ÿํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Piper๋Š” CPU ์†๋„์™€ ์ž„๋ฒ ๋””๋“œ ํ•˜๋“œ์›จ์–ด์—์„œ ๊ฐ€์žฅ ๋น ๋ฅธ ๋กœ์ปฌ TTS ์—”์ง„์ด๋ฉฐ, Coqui TTS๋Š” ํ’ˆ์งˆ๊ณผ ์Œ์„ฑ ๋ณต์ œ์˜ ๊ท ํ˜•์„ ์žก๊ณ , XTTS v2๋Š” ์ตœ๊ณ ์˜ ๋กœ์ปฌ ์Œ์„ฑ ๋ณต์ œ ์˜ต์…˜(6์ดˆ์˜ ์ฐธ์กฐ ์˜ค๋””์˜ค โ†’ 17๊ฐœ ์–ธ์–ด๋กœ ๋ณต์ œ๋œ ์Œ์„ฑ)์ž…๋‹ˆ๋‹ค. F5-TTS๋Š” ๋ณด๋‹ค ํ˜„๋Œ€์ ์ธ flow-matching ์•„ํ‚คํ…์ฒ˜๋กœ zero-shot ์Œ์„ฑ ๋ณต์ œ๋ฅผ ์ œ๊ณตํ•˜๊ณ , Bark๋Š” ์ฐฝ์˜์  ์˜ค๋””์˜ค์— ํŠนํ™”๋˜์–ด ์žˆ์œผ๋ฉฐ, StyleTTS 2๋Š” ์˜์–ด ๋‚ด๋ ˆ์ด์…˜์—์„œ ๊ฑฐ์˜ ์ธ๊ฐ„์— ๊ฐ€๊นŒ์šด ํ’ˆ์งˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ฐ€์ด๋“œ๋Š” ์—ฌ์„ฏ ์—”์ง„์„ ํ’ˆ์งˆ, ์†๋„, VRAM ์š”๊ตฌ ์‚ฌํ•ญ, ์Œ์„ฑ ๋ณต์ œ ๊ธฐ๋Šฅ, ๋‹ค๊ตญ์–ด ์ง€์›, ๋ผ์ด์„ ์Šค ์ธก๋ฉด์—์„œ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์š”์ 

  • Piper๋Š” ์†๋„์™€ ์ž„๋ฒ ๋””๋“œ ์‚ฌ์šฉ์— ์˜ฌ๋ฐ”๋ฅธ ์„ ํƒ์ž…๋‹ˆ๋‹ค. ์™„์ „ํžˆ CPU์—์„œ ๋™์ž‘ํ•˜๋ฉฐ, Raspberry Pi 5์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์Œ์„ฑ์„ ์ƒ์„ฑํ•˜๊ณ  ๋‹ค์šด๋กœ๋“œ ๊ฐ€๋Šฅํ•œ ์Œ์„ฑ ํŒจํ‚ค์ง€๋ฅผ ํ†ตํ•ด 20๊ฐœ ์ด์ƒ์˜ ์–ธ์–ด๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. MIT ๋ผ์ด์„ ์Šค.
  • XTTS v2๋Š” 2026๋…„ ์ตœ๊ณ ์˜ ๋กœ์ปฌ ์Œ์„ฑ ๋ณต์ œ ์˜ต์…˜์ž…๋‹ˆ๋‹ค. 6์ดˆ์˜ ์ฐธ์กฐ ์˜ค๋””์˜ค๋กœ 17๊ฐœ ์–ธ์–ด์—์„œ ์Œ์„ฑ์„ ๋ณต์ œํ•ฉ๋‹ˆ๋‹ค. GPU 4~6 GB VRAM์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. CPML ๋ผ์ด์„ ์Šค๋Š” ์ƒ์—…์  ์‚ฌ์šฉ์„ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค.
  • F5-TTS๋Š” zero-shot ์Œ์„ฑ ๋ณต์ œ์—์„œ ๊ฐ€์žฅ ๋น ๋ฅด๊ฒŒ ์„ฑ์žฅํ•˜๋Š” ๋Œ€์•ˆ์ž…๋‹ˆ๋‹ค. flow-matching ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ~3์ดˆ์˜ ์ฐธ์กฐ ์˜ค๋””์˜ค๋กœ ์Œ์„ฑ์„ ๋ณต์ œํ•ฉ๋‹ˆ๋‹ค. ๋ผ์ด์„ ์Šค: CC-BY-NC-4.0.
  • Coqui TTS๋Š” ๊ฐ€์žฅ ์œ ์—ฐํ•œ ์˜คํ”ˆ์†Œ์Šค TTS ํˆดํ‚ท์ž…๋‹ˆ๋‹ค. MPL 2.0 ๋ผ์ด์„ ์Šค ํ•˜์— ๋‹ค์–‘ํ•œ ๋ฐฑ์—”๋“œ, ์Œ์„ฑ ๋ณต์ œ, 20๊ฐœ ์ด์ƒ์˜ ์–ธ์–ด๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
  • Bark๋Š” ๋น„์Œ์„ฑ ์˜ค๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์œ ์ผํ•œ ๋กœ์ปฌ TTS์ž…๋‹ˆ๋‹ค. ์Œ์„ฑ๊ณผ ํ•จ๊ป˜ ์›ƒ์Œ, ๊ธฐ์นจ, ํ•œ์ˆจ, ์Œ์•… ์กฐ๊ฐ, ํ™˜๊ฒฝ ์Œํ–ฅ ํšจ๊ณผ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • StyleTTS 2๋Š” ์˜คํ”ˆ์†Œ์Šค ์˜์–ด TTS ์—”์ง„ ์ค‘ ๊ฐ€์žฅ ๋†’์€ MOS๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ์Šคํƒ€์ผ ์ „๋‹ฌ์ด ์˜์–ด ๋‚ด๋ ˆ์ด์…˜์—์„œ ๊ฑฐ์˜ ์ธ๊ฐ„์— ๊ฐ€๊นŒ์šด ์ž์—ฐ์Šค๋Ÿฌ์›€์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜์–ด ์ „์šฉ, MIT ๋ผ์ด์„ ์Šค.
  • ์ƒ์—…์  ์‚ฌ์šฉ์—์„œ ๋ผ์ด์„ ์Šค๋Š” ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Piper(MIT), Bark(MIT), StyleTTS 2(MIT): ์ž์œ ๋กœ์šด ์ƒ์—…์  ์‚ฌ์šฉ. Coqui(MPL 2.0): ์กฐ๊ฑด๋ถ€ ์ƒ์—…์  ํ—ˆ์šฉ. XTTS v2(CPML): ๊ณ„์•ฝ ํ•„์š”. F5-TTS(CC-BY-NC-4.0): ์ƒ์—…์  ์‚ฌ์šฉ ๊ธˆ์ง€.
  • ์–ด๋–ค ์—”์ง„๋„ ๋Œ€๊ทœ๋ชจ ์ƒ์—…์  TTS์˜ ํ’ˆ์งˆ๊ณผ ๋™๋“ฑํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ElevenLabs, Google TTS, Azure TTS๋Š” ์—ฌ์ „ํžˆ ๋กœ์ปฌ ์—”์ง„์„ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋กœ์ปฌ TTS๋Š” ํ”„๋ผ์ด๋ฒ„์‹œ, ๋น„์šฉ, ์˜คํ”„๋ผ์ธ ์šด์˜์ด ์ค‘์š”ํ•  ๋•Œ ์˜ฌ๋ฐ”๋ฅธ ์„ ํƒ์ž…๋‹ˆ๋‹ค.

๋น ๋ฅธ ์‚ฌ์‹ค

  • ๊ฐ€์žฅ ๋น ๋ฅธ ๋กœ์ปฌ TTS: Piper โ€” Raspberry Pi 5์—์„œ ์‹ค์‹œ๊ฐ„, ์ตœ์‹  ๋ฐ์Šคํฌํ†ฑ CPU์—์„œ ์‹ค์‹œ๊ฐ„๋ณด๋‹ค ~10๋ฐฐ ๋น ๋ฆ„.
  • ์ตœ๊ณ ์˜ ์Œ์„ฑ ๋ณต์ œ ํ’ˆ์งˆ: XTTS v2 โ€” 6์ดˆ์˜ ์ฐธ์กฐ ์˜ค๋””์˜ค, 17๊ฐœ ์–ธ์–ด๋กœ ๋‹ค๊ตญ์–ด ๋ณต์ œ.
  • ๊ฐ€์žฅ ๋น ๋ฅธ zero-shot ์Œ์„ฑ ๋ณต์ œ: F5-TTS โ€” ~3์ดˆ์˜ ์˜ค๋””์˜ค, flow-matching, RTX 4070์—์„œ ~3~5๋ฐฐ ์‹ค์‹œ๊ฐ„.
  • ๊ฐ€์žฅ ์œ ์—ฐํ•œ ์˜คํ”ˆ์†Œ์Šค ํˆดํ‚ท: Coqui TTS โ€” VITS, Tacotron2, XTTS ๋ฐฑ์—”๋“œ ์ง€์›, 20๊ฐœ ์ด์ƒ์˜ ์–ธ์–ด ๋ชจ๋ธ.
  • ์œ ์ผํ•œ ์ƒ์„ฑ์  ์˜ค๋””์˜ค: Bark โ€” ์›ƒ์Œ, ํ•œ์ˆจ, ์Œ์•…, ํ™˜๊ฒฝ์Œ. ๋ชจ๋“  ์—”์ง„ ์ค‘ ๊ฐ€์žฅ ๋А๋ฆผ.
  • ์ตœ๊ณ ์˜ ์˜์–ด ๋‚ด๋ ˆ์ด์…˜ ํ’ˆ์งˆ: StyleTTS 2 โ€” ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ์Šคํƒ€์ผ ์ „๋‹ฌ, LJSpeech ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฑฐ์˜ ์ธ๊ฐ„์— ๊ฐ€๊นŒ์šด MOS.
  • VRAM ์š”๊ตฌ ์‚ฌํ•ญ: Piper: CPU ์ „์šฉ. Kokoro: CPU / 1~2 GB. StyleTTS 2: 2~4 GB. Coqui VITS: 2~4 GB. F5-TTS: 3~5 GB. XTTS v2: 4~6 GB. Bark: 4~8 GB.

๋กœ์ปฌ TTS๊ฐ€ ์ค‘์š”ํ•œ ์ด์œ 

ํด๋ผ์šฐ๋“œ TTS ์„œ๋น„์Šค(ElevenLabs, Google TTS, Amazon Polly, Azure Speech)๋Š” ํŽธ๋ฆฌํ•˜์ง€๋งŒ ๋ฌธ์ž๋‹น ์ฒญ๊ตฌ, ์˜ค๋””์˜ค ๋ฐ์ดํ„ฐ ๋ณด์กด ์ •์ฑ…, ๋„คํŠธ์›Œํฌ ์™•๋ณต ์ง€์—ฐ ์‹œ๊ฐ„์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ์ปฌ TTS๋Š” ์ด ์„ธ ๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ๋ชจ๋‘ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

  • ํ”„๋ผ์ด๋ฒ„์‹œ: ํ…์ŠคํŠธ ์ฝ˜ํ…์ธ ๊ฐ€ ์ปดํ“จํ„ฐ๋ฅผ ๋ฒ—์–ด๋‚˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์˜๋ฃŒ ๋ฐ›์•„์“ฐ๊ธฐ, ๋ฒ•์  ์š”์•ฝ, ๊ธฐ๋ฐ€ ๋ฌธ์„œ ๋‚ญ๋…์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
  • ๋น„์šฉ: ํด๋ผ์šฐ๋“œ TTS ๊ฐ€๊ฒฉ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฐฑ๋งŒ ๋ฌธ์ž๋‹น $4~$30์ž…๋‹ˆ๋‹ค. ์›” 1์ฒœ๋งŒ ๋ฌธ์ž๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฐœ๋ฐœ์ž๋Š” ๋กœ์ปฌ ์„ค์ •์œผ๋กœ ์›” $40~$300์„ ์ ˆ์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ง€์—ฐ ์‹œ๊ฐ„: ๋„คํŠธ์›Œํฌ ์™•๋ณต ์—†์Œ. Piper๋Š” CPU์—์„œ 50ms ๋ฏธ๋งŒ์— ์ฒซ ์˜ค๋””์˜ค ํ† ํฐ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ์‚ฌ์šฉ์ž ์ง€์ •: ์Œ์„ฑ ๋ณต์ œ(XTTS v2, F5-TTS, Coqui)๋Š” ๋ช‡ ์ดˆ์˜ ์˜ค๋””์˜ค์—์„œ ์‚ฌ์šฉ์ž ์ง€์ • ์Œ์„ฑ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์˜คํ”„๋ผ์ธ ์šด์˜: ๋น„ํ–‰๊ธฐ, ๋ณด์•ˆ ์‹œ์„ค, ์ธํ„ฐ๋„ท์ด ์—†๋Š” ์›๊ฒฉ ์ง€์—ญ์—์„œ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
  • ์Šค๋งˆํŠธ ํ™ˆ: Piper๋Š” ํ•ญ์ƒ ์ผœ์ ธ ์žˆ๋Š” ๋กœ์ปฌ ์Œ์„ฑ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์œ„ํ•œ ์ฃผ์š” TTS ๋ ˆ์ด์–ด์ž…๋‹ˆ๋‹ค โ€” Raspberry Pi์—์„œ ์‹ค์‹œ๊ฐ„, GPU ๋ถˆํ•„์š”. ์Šค๋งˆํŠธ ํ™ˆ์šฉ ๋กœ์ปฌ ์Œ์„ฑ ์–ด์‹œ์Šคํ„ดํŠธ โ†’๋ฅผ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.

๋น„๊ต ํ‘œ

ํ”„๋กœ๋•์…˜ ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ง€ํ‘œ์—์„œ ๋น„๊ตํ•œ ๋ชจ๋“  ๋กœ์ปฌ TTS ์—”์ง„.

๐Ÿ“ ํ•œ ๋ฌธ์žฅ์œผ๋กœ

Piper๋Š” CPU์—์„œ ๊ฐ€์žฅ ๋น ๋ฅด๊ณ , XTTS v2๋Š” ์ตœ๊ณ ์˜ ์Œ์„ฑ ๋ณต์ œ ํ’ˆ์งˆ์„ ์ œ๊ณตํ•˜๋ฉฐ, F5-TTS๋Š” ๋” ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋กœ zero-shot ๋ณต์ œ๋ฅผ ์ œ๊ณตํ•˜๊ณ , Bark๋Š” ์›ƒ์Œ๊ณผ ์Œ์•…์„ ์ƒ์„ฑํ•˜๋Š” ์œ ์ผํ•œ ์—”์ง„์ด๋ฉฐ, StyleTTS 2๋Š” ์˜์–ด ๋‚ด๋ ˆ์ด์…˜์—์„œ ์ตœ๊ณ ์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€์„ ๊ฐ–์Šต๋‹ˆ๋‹ค.

๐Ÿ’ฌ ์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด

๋Œ€๋ถ€๋ถ„์˜ ์˜คํ”„๋ผ์ธ TTS ์š”๊ตฌ์— ๋Œ€ํ•ด: ์†๋„์™€ ๋‹จ์ˆœ์„ฑ์„ ์›ํ•˜๋ฉด Piper, ํ—ˆ์šฉ์  ๋ผ์ด์„ ์Šค์˜ ์Œ์„ฑ ๋ณต์ œ๋ฅผ ์›ํ•˜๋ฉด Coqui, GPU๊ฐ€ ์žˆ๊ณ  ์ตœ๊ณ ์˜ ๋ณต์ œ ํ’ˆ์งˆ์„ ์›ํ•˜๋ฉด XTTS v2, ๋” ๋น ๋ฅธ zero-shot ๋ณต์ œ๋ฅผ ์›ํ•˜๋ฉด F5-TTS๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

๋„๊ตฌํ’ˆ์งˆ์†๋„์Œ์„ฑ ๋ณต์ œ๋‹ค๊ตญ์–ดVRAM๋ผ์ด์„ ์ŠคMOS(์˜์–ด)
Piper์ข‹์Œ๋งค์šฐ ๋น ๋ฆ„(CPU)์—†์Œ์˜ˆ(20๊ฐœ+ ์–ธ์–ด)CPU ์ „์šฉMIT~3.5
Kokoro๋งค์šฐ ์ข‹์Œ๋น ๋ฆ„(CPU)์—†์Œ์˜์–ด + ํ™•์žฅ ์ค‘CPU / 1~2 GBApache 2.0~4.0
Coqui TTS๋งค์šฐ ์ข‹์Œ๋ณดํ†ต์žˆ์Œ์˜ˆ(20๊ฐœ+ ์–ธ์–ด)2~4 GBMPL 2.0~3.8
XTTS v2์šฐ์ˆ˜๋А๋ฆผ์žˆ์Œ(์ตœ๊ณ )์˜ˆ(17๊ฐœ ์–ธ์–ด)4~6 GBCPML(์ƒ์—…์  ์ œํ•œ)~4.1
F5-TTS์šฐ์ˆ˜๋ณดํ†ต~๋น ๋ฆ„์žˆ์Œ(zero-shot)์˜ˆ(๋‹ค๊ตญ์–ด)3~5 GBCC-BY-NC-4.0~4.1
Bark๋…ํŠนํ•จ/๊ฐ€๋ณ€์ ๋А๋ฆผ์ œํ•œ์ ์˜ˆ(๋‹ค๊ตญ์–ด)4~8 GBMIT~3.2~4.0(๊ฐ€๋ณ€์ )
StyleTTS 2์šฐ์ˆ˜(์˜์–ด)๋ณดํ†ต์—†์Œ์ฃผ๋กœ ์˜์–ด2~4 GBMIT~4.3

MOS(mean opinion score)๋Š” 1~5 ์ฒ™๋„๋กœ 5๊ฐ€ ์ธ๊ฐ„ ์Œ์„ฑ๊ณผ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์—†์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ ์ˆ˜๋Š” ๊ทผ์‚ฌ์น˜์ด๋ฉฐ ๊ณต๊ฐœ๋œ ๋ฒค์น˜๋งˆํฌ ๋˜๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ ํ‰๊ฐ€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ์ฐธ์กฐ MOS: ~4.5.

์ฒซ ์˜ค๋””์˜ค ์ง€์—ฐ ์‹œ๊ฐ„ ๋น„๊ต

์ฒซ ์˜ค๋””์˜ค ์ง€์—ฐ ์‹œ๊ฐ„์€ ํ…์ŠคํŠธ ์ž…๋ ฅ๋ถ€ํ„ฐ ์ฒซ ๋ฒˆ์งธ ์ฒญ์ทจ ๊ฐ€๋Šฅํ•œ ์ถœ๋ ฅ๊นŒ์ง€์˜ ์‹œ๊ฐ„์ž…๋‹ˆ๋‹ค. ์Œ์„ฑ ์–ด์‹œ์Šคํ„ดํŠธ์™€ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

์—”์ง„์ฒซ ์˜ค๋””์˜ค(RTX 4070)์ฒซ ์˜ค๋””์˜ค(CPU)์ฒซ ์˜ค๋””์˜ค(M5 Pro)
Piper~30 ms~50 ms~40 ms
Kokoro~50 ms~80 ms~60 ms
Coqui VITS~100 ms~300 ms~150 ms
StyleTTS 2~150 ms~500 ms~200 ms
F5-TTS~200 ms~800 ms~300 ms
XTTS v2~300 ms~1500 ms~500 ms
Bark~500 ms~3000 ms~800 ms

Piper TTS โ€” ๊ฐ€์žฅ ๋น ๋ฅธ ๊ฒฝ๋Ÿ‰ ์˜ต์…˜

Piper๋Š” ํ™ˆ ์ž๋™ํ™” ๋ฐ ์ž„๋ฒ ๋””๋“œ ์‚ฌ์šฉ์„ ์œ„ํ•ด Rhasspy๊ฐ€ ๊ฐœ๋ฐœํ•œ ๋น ๋ฅธ ๋กœ์ปฌ ์Œ์„ฑ ํ•ฉ์„ฑ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. onnxruntime ๋ฐฑ์—”๋“œ๋ฅผ ๊ฐ–์ถ˜ VITS ๊ธฐ๋ฐ˜ ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, GPU ์—†์ด Raspberry Pi 4 ๋˜๋Š” 5์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

  • ์•„ํ‚คํ…์ฒ˜: ONNX ์ถ”๋ก ์ด ์žˆ๋Š” VITS ์‹ ๊ฒฝ๋ง TTS. ๋‹จ์ผ ๋ณด๋“œ ์ปดํ“จํ„ฐ์™€ ์ž„๋ฒ ๋””๋“œ Linux์šฉ์œผ๋กœ ์„ค๊ณ„.
  • ์„ค์น˜: pip install piper-tts. ์‚ฌ์ „ ํ•™์Šต๋œ ์Œ์„ฑ ํŒจํ‚ค์ง€๋Š” Hugging Face์˜ Piper voices ์ €์žฅ์†Œ์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • ์Œ์„ฑ ํŒจํ‚ค์ง€: 20๊ฐœ ์ด์ƒ์˜ ์–ธ์–ด, ์–ธ์–ด๋‹น ๋‹ค์–‘ํ•œ ์Œ์„ฑ ์˜ต์…˜. ๊ฐ ์Œ์„ฑ ํŒจํ‚ค์ง€๋Š” 20~200 MB์˜ ONNX ๋ชจ๋ธ ํŒŒ์ผ์ž…๋‹ˆ๋‹ค.
  • ์†๋„: ์ตœ์‹  ๋ฐ์Šคํฌํ†ฑ CPU์—์„œ ์‹ค์‹œ๊ฐ„๋ณด๋‹ค ~10๋ฐฐ ๋น ๋ฆ…๋‹ˆ๋‹ค. Raspberry Pi 5์—์„œ ์‹ค์‹œ๊ฐ„. ์ฒซ ์˜ค๋””์˜ค ์ง€์—ฐ ์‹œ๊ฐ„ 50ms ๋ฏธ๋งŒ.
  • Apple Silicon: M5 Pro์—์„œ ~15๋ฐฐ ์‹ค์‹œ๊ฐ„(CPU, ARM NEON).
  • ์ด์ƒ์ ์ธ ์šฉ๋„: ํ™ˆ ์–ด์‹œ์Šคํ„ดํŠธ, ํ‚ค์˜ค์Šคํฌ ์žฅ์น˜, ์ž„๋ฒ ๋””๋“œ ์Œ์„ฑ ์ธํ„ฐํŽ˜์ด์Šค, GPU๊ฐ€ ์—†๋Š” ํ”„๋ผ์ด๋ฒ„์‹œ ์ค‘์‹ฌ์˜ ๋‚ญ๋….
  • ์ œํ•œ ์‚ฌํ•ญ: ์Œ์„ฑ ๋ณต์ œ ์—†์Œ. ํ’ˆ์งˆ์€ "์ข‹์Œ" โ€” XTTS v2 ๋˜๋Š” StyleTTS 2์— ๋น„ํ•ด ๋ช…ํ™•ํžˆ ํ•ฉ์„ฑ์Œ์œผ๋กœ ๋“ค๋ฆฝ๋‹ˆ๋‹ค.
  • ๋ผ์ด์„ ์Šค: MIT โ€” ์™„์ „ํ•œ ์ƒ์—…์  ์‚ฌ์šฉ ๊ฐ€๋Šฅ.
  • ์ƒ˜ํ”Œ ๋“ฃ๊ธฐ: Piper ์Œ์„ฑ ์ƒ˜ํ”Œ
  • Kokoro TTS โ€” Piper์˜ ๋Œ€์•ˆ: Kokoro TTS๋Š” CPU์—์„œ ๋น ๋ฅธ ์†๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ Piper๋ณด๋‹ค ๋” ์ž์—ฐ์Šค๋Ÿฌ์šด ์Œ์งˆ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. Apache 2.0 ๋ผ์ด์„ ์Šค. Kokoro

Coqui TTS โ€” ์ตœ๊ณ ์˜ ์˜คํ”ˆ์†Œ์Šค ํˆดํ‚ท

Coqui TTS๋Š” ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์™€ ์Œ์„ฑ ๋ณต์ œ๋ฅผ ์ง€์›ํ•˜๋Š” Python ์Œ์„ฑ ํ•ฉ์„ฑ ํˆดํ‚ท์ž…๋‹ˆ๋‹ค. Coqui ํšŒ์‚ฌ(2023๋…„ ๋ง ๋ฌธ์„ ๋‹ซ์Œ)๊ฐ€ ๊ฐœ๋ฐœํ–ˆ์œผ๋ฉฐ ํ˜„์žฌ๋Š” ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ์œ ์ง€ ๊ด€๋ฆฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์„ค์น˜: pip install TTS. ๋ชจ๋ธ์€ ์ฒซ ์‚ฌ์šฉ ์‹œ ์ž๋™์œผ๋กœ ๋‹ค์šด๋กœ๋“œ๋ฉ๋‹ˆ๋‹ค.
  • ๋ฐฑ์—”๋“œ ์˜ต์…˜: VITS(๊ฐ€์žฅ ๋น ๋ฆ„, ์ข‹์€ ํ’ˆ์งˆ), Tacotron2(๊ตฌํ˜•, ๋” ๋А๋ฆผ), XTTS(์ตœ๊ณ  ํ’ˆ์งˆ).
  • ์–ธ์–ด: tts --list_models๋ฅผ ํ†ตํ•ด 20๊ฐœ ์ด์ƒ์˜ ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์šฉ ๊ฐ€๋Šฅ.
  • VRAM: VITS ๋ฐฑ์—”๋“œ: 2~4 GB; XTTS ๋ฐฑ์—”๋“œ: 4~6 GB.
  • Apple Silicon: M5 Pro์—์„œ ~8๋ฐฐ ์‹ค์‹œ๊ฐ„(CPU). Metal GPU ๊ฐ€์† ์—†์Œ.
  • ์ปค๋ฎค๋‹ˆํ‹ฐ ํ˜„ํ™ฉ: Coqui Inc๋Š” 2023๋…„ ๋ง์— ๋ฌธ์„ ๋‹ซ์•˜์Šต๋‹ˆ๋‹ค. ์˜คํ”ˆ์†Œ์Šค ์ €์žฅ์†Œ(coqui-ai/TTS)๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ์œ ์ง€ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
  • ๋ผ์ด์„ ์Šค: MPL 2.0 โ€” ์ƒ์—…์  ์‚ฌ์šฉ ํ—ˆ์šฉ, ๋‹จ ์ˆ˜์ • ์‚ฌํ•ญ์˜ ์†Œ์Šค ์ฝ”๋“œ๋ฅผ ๊ณต๊ฐœํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด์ƒ์ ์ธ ์šฉ๋„: ํ—ˆ์šฉ์  ๋ผ์ด์„ ์Šค์˜ ์˜คํ”ˆ์†Œ์Šค ํˆดํ‚ท์œผ๋กœ ์Œ์„ฑ ๋ณต์ œ๋ฅผ ์›ํ•˜๋Š” ๊ฐœ๋ฐœ์ž.

XTTS v2 โ€” ์ตœ๊ณ ์˜ ์Œ์„ฑ ๋ณต์ œ ํ’ˆ์งˆ

XTTS v2(Coqui ์ œ์ž‘)๋Š” 2026๋…„ ๋กœ์ปฌ์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์ตœ๊ณ  ํ’ˆ์งˆ์˜ ์Œ์„ฑ ๋ณต์ œ ์—”์ง„์ž…๋‹ˆ๋‹ค. ํฌ๋กœ์Šค ์–ธ์–ด ์ „๋‹ฌ์ด ์žˆ๋Š” GPT ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • ์Œ์„ฑ ๋ณต์ œ: 6์ดˆ์˜ ์ฐธ์กฐ ์˜ค๋””์˜ค๋กœ ์„ค๋“๋ ฅ ์žˆ๋Š” ์Œ์„ฑ ๋ณต์ œ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. 3์ดˆ๋„ ํ—ˆ์šฉ ๊ฐ€๋Šฅํ•œ ํ’ˆ์งˆ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ๋‹ค๊ตญ์–ด ๋ณต์ œ: ํ•œ ์–ธ์–ด๋กœ ์Œ์„ฑ์„ ๋ณต์ œํ•˜๊ณ  ๋™์ผํ•œ ์Œ์„ฑ ํŠน์„ฑ์œผ๋กœ 17๊ฐœ ์–ธ์–ด์—์„œ ๋งํ•˜๊ธฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • VRAM: GPU 4~6 GB ๊ถŒ์žฅ. CPU์—์„œ๋„ ๋™์ž‘ํ•˜์ง€๋งŒ ~5~10๋ฐฐ ๋А๋ฆฝ๋‹ˆ๋‹ค.
  • ์†๋„: ๋А๋ฆผ โ€” RTX 4070์—์„œ ~2๋ฐฐ ์‹ค์‹œ๊ฐ„. ์‹ค์‹œ๊ฐ„ ์Œ์„ฑ ์–ด์‹œ์Šคํ„ดํŠธ ํŒŒ์ดํ”„๋ผ์ธ์— ์ ํ•ฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
  • Apple Silicon: M5 Pro์—์„œ ~3๋ฐฐ ์‹ค์‹œ๊ฐ„(CPU, Metal ๊ฐ€์† ์—†์Œ).
  • ์ƒ˜ํ”Œ ๋“ฃ๊ธฐ: Hugging Face์˜ XTTS v2 ๋ฐ๋ชจ
  • ๋ผ์ด์„ ์Šค: CPML. ์—ฐ๊ตฌ ๋ฐ ๊ฐœ์ธ์  ์‚ฌ์šฉ์€ ๋ฌด๋ฃŒ. ์ƒ์—…์  ์‚ฌ์šฉ์—๋Š” ๋ผ์ด์„ ์Šค ๊ณ„์•ฝ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
python
from TTS.api import TTS

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
tts.tts_to_file(
    text="์•ˆ๋…•ํ•˜์„ธ์š”, ์ €๋Š” ๋‹น์‹ ์˜ ์Œ์„ฑ ์–ด์‹œ์Šคํ„ดํŠธ์ž…๋‹ˆ๋‹ค.",
    speaker_wav="reference_voice.wav",
    language="ko",
    file_path="output.wav"
)

โš ๏ธWarning: XTTS v2๋Š” CPML ๋ผ์ด์„ ์Šค์˜ ์ ์šฉ์„ ๋ฐ›์Šต๋‹ˆ๋‹ค. ์ƒ์—…์  ์‚ฌ์šฉ์—๋Š” ๋ผ์ด์„ ์Šค ๊ณ„์•ฝ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ฐฐํฌ ์ „ ๋ผ์ด์„ ์Šค ์กฐ๊ฑด์„ ๊ฒ€ํ† ํ•˜์‹ญ์‹œ์˜ค.

Bark โ€” ์Œ์„ฑ์„ ๋„˜์–ด์„  ์ƒ์„ฑ์  ์˜ค๋””์˜ค

Bark(Suno AI ์ œ์ž‘)๋Š” ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์—์„œ ์Œ์„ฑ, ์Œ์•…, ์›ƒ์Œ, ๊ธฐ์นจ, ํ•œ์ˆจ ๋ฐ ํ™˜๊ฒฝ์Œ์„ ์ƒ์„ฑํ•˜๋Š” ํ…์ŠคํŠธ-์˜ค๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • ๊ณ ์œ ํ•œ ๊ธฐ๋Šฅ: ํ…์ŠคํŠธ์— `[laughs], [sighs], [music]`๋ฅผ ํฌํ•จํ•˜๋ฉด Bark๊ฐ€ ์Œ์„ฑ๊ณผ ํ•จ๊ป˜ ํ•ด๋‹น ์‚ฌ์šด๋“œ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ์†๋„: ๋А๋ฆผ โ€” RTX 4090์—์„œ๋„ ์‹ค์‹œ๊ฐ„๋ณด๋‹ค 2~4๋ฐฐ ๋А๋ฆฝ๋‹ˆ๋‹ค.
  • Apple Silicon: M5 Pro์—์„œ ~1.5๋ฐฐ ์‹ค์‹œ๊ฐ„(CPU, ๋ถ€๋ถ„์  MPS).
  • ์ด์ƒ์ ์ธ ์šฉ๋„: ์ฐฝ์˜์  ์˜ค๋””์˜ค, ์Œํ–ฅ ํšจ๊ณผ๊ฐ€ ์žˆ๋Š” ํŒŸ์บ์ŠคํŠธ ์ œ์ž‘, ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ”ฝ์…˜.
  • VRAM: GPU 4~8 GB.
  • ์„ค์น˜: pip install suno-bark. ๋ชจ๋ธ์€ ์ฒซ ์‹คํ–‰ ์‹œ ๋‹ค์šด๋กœ๋“œ๋ฉ๋‹ˆ๋‹ค(~2 GB).
  • ๋ผ์ด์„ ์Šค: MIT โ€” ์™„์ „ํ•œ ์ƒ์—…์  ์‚ฌ์šฉ ๊ฐ€๋Šฅ.
  • ์ œํ•œ ์‚ฌํ•ญ: ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์Œ์„ฑ ๋ณต์ œ ์—†์Œ.

StyleTTS 2 โ€” ์ตœ๊ณ ์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ’ˆ์งˆ

StyleTTS 2๋Š” LJSpeech ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฑฐ์˜ ์ธ๊ฐ„์— ๊ฐ€๊นŒ์šด MOS๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ํ™•์‚ฐ ๊ธฐ๋ฐ˜ TTS ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • ํ’ˆ์งˆ: LJSpeech ๋ฒค์น˜๋งˆํฌ์—์„œ ์˜คํ”ˆ์†Œ์Šค ์˜์–ด TTS ์—”์ง„ ์ค‘ ๊ฐ€์žฅ ๋†’์€ MOS ์ ์ˆ˜.
  • ์ด์ƒ์ ์ธ ์šฉ๋„: ์˜ค๋””์˜ค๋ถ ๋‚ด๋ ˆ์ด์…˜, ์ „๋ฌธ ๋ณด์ด์Šค์˜ค๋ฒ„, ํŒŸ์บ์ŠคํŠธ ์ œ์ž‘.
  • ์„ค์น˜: GitHub ์ €์žฅ์†Œ ํด๋ก , pip install -r requirements.txt, ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ ๋‹ค์šด๋กœ๋“œ(~500 MB).
  • ์–ธ์–ด ์ง€์›: ์ฃผ๋กœ ์˜์–ด. ์˜์–ด ์ด์™ธ์˜ ์–ธ์–ด ์‚ฌ์šฉ์€ ๊ถŒ์žฅํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
  • ์Œ์„ฑ ๋ณต์ œ: ์ง€์›๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
  • VRAM: GPU 2~4 GB. RTX 4070์—์„œ ~5~8๋ฐฐ ์‹ค์‹œ๊ฐ„.
  • ๋ผ์ด์„ ์Šค: MIT โ€” ์™„์ „ํ•œ ์ƒ์—…์  ์‚ฌ์šฉ ๊ฐ€๋Šฅ.
  • ์ƒ˜ํ”Œ ๋“ฃ๊ธฐ: GitHub์˜ StyleTTS 2

F5-TTS โ€” Zero-shot ์Œ์„ฑ ๋ณต์ œ, ์™„์ „ ๊ฐœ๋ฐฉํ˜•

F5-TTS๋Š” zero-shot ์Œ์„ฑ ๋ณต์ œ๊ฐ€ ์žˆ๋Š” flow-matching ๊ธฐ๋ฐ˜ TTS ๋ชจ๋ธ๋กœ โ€” fine-tuning ์—†์ด ~3์ดˆ์˜ ์ฐธ์กฐ ์˜ค๋””์˜ค์—์„œ ๋ชจ๋“  ์Œ์„ฑ์„ ๋ณต์ œํ•ฉ๋‹ˆ๋‹ค.

  • ์•„ํ‚คํ…์ฒ˜: Flow-matching(ํ™•์‚ฐ์˜ ๋ณ€ํ˜•). ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ํ’ˆ์งˆ๋กœ ๋” ๋น ๋ฅธ ์ถ”๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ์Œ์„ฑ ๋ณต์ œ: ~3์ดˆ์˜ ์ฐธ์กฐ ์˜ค๋””์˜ค๋กœ zero-shot ์Œ์„ฑ ๋ณต์ œ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • ํ’ˆ์งˆ: ์˜์–ด์—์„œ XTTS v2์™€ ๊ฒฝ์Ÿ์ . ์ปค๋ฎค๋‹ˆํ‹ฐ ํ‰๊ฐ€์—์„œ MOS ์•ฝ ~4.1.
  • ์†๋„: RTX 4070์—์„œ ~3~5๋ฐฐ ์‹ค์‹œ๊ฐ„.
  • VRAM: GPU 3~5 GB ๊ถŒ์žฅ.
  • ์„ค์น˜: pip install f5-tts ๋˜๋Š” GitHub์—์„œ ํด๋ก .
  • ๋ผ์ด์„ ์Šค: CC-BY-NC-4.0 โ€” ๋น„์ƒ์—…์  ์‚ฌ์šฉ๋งŒ ๊ฐ€๋Šฅ.
  • ์ค‘์š”ํ•œ ์ด์œ : XTTS v2๊ฐ€ ๋„ˆ๋ฌด ๋А๋ฆฌ๊ฑฐ๋‚˜ CPML ๋ผ์ด์„ ์Šค๊ฐ€ ์šฐ๋ ค๋˜๋Š” ๊ฒฝ์šฐ F5-TTS๊ฐ€ ์ฃผ์š” ๋Œ€์•ˆ์ž…๋‹ˆ๋‹ค.

๋ผ์ด์„ ์Šค ๋ถ„์„ โ€” ์ƒ์—…์  ์‚ฌ์šฉ์— ์ค‘์š”

๋ผ์ด์„ ์Šค ์กฐ๊ฑด์€ ํ”„๋กœ๋•์…˜ ๋ฐฐํฌ์—์„œ ๊ธฐ๋ณธ์ ์ž…๋‹ˆ๋‹ค.

๋„๊ตฌ๋ผ์ด์„ ์Šค์ƒ์—…์ ?์ฃผ์š” ์กฐ๊ฑด
PiperMIT์˜ˆ โ€” ์ œํ•œ ์—†์ŒMIT ์ €์ž‘๊ถŒ ๊ณ ์ง€ ํฌํ•จ
KokoroApache 2.0์˜ˆ โ€” ์ œํ•œ ์—†์ŒApache 2.0 ๊ณ ์ง€ ํฌํ•จ
Coqui TTSMPL 2.0์˜ˆ โ€” ์กฐ๊ฑด ์žˆ์Œ์ˆ˜์ • ์‚ฌํ•ญ์˜ ์†Œ์Šค ์ฝ”๋“œ ๊ณต๊ฐœ ํ•„์š”
XTTS v2CPML์—ฐ๊ตฌ/๊ฐœ์ธ์šฉ๋งŒ์ƒ์—…์  ์‚ฌ์šฉ์— ๋ผ์ด์„ ์Šค ๊ณ„์•ฝ ํ•„์š”
F5-TTSCC-BY-NC-4.0๋น„์ƒ์—…์ ๋งŒ๋ณ„๋„ ๊ณ„์•ฝ ์—†์ด ์ƒ์—…์  ์‚ฌ์šฉ ๊ธˆ์ง€
BarkMIT์˜ˆ โ€” ์ œํ•œ ์—†์ŒMIT ์ €์ž‘๊ถŒ ๊ณ ์ง€ ํฌํ•จ
StyleTTS 2MIT์˜ˆ โ€” ์ œํ•œ ์—†์ŒMIT ์ €์ž‘๊ถŒ ๊ณ ์ง€ ํฌํ•จ

๐Ÿ“ŒNote: Coqui TTS(ํˆดํ‚ท, MPL 2.0)์™€ XTTS v2(ํŠน์ • ๋ชจ๋ธ, CPML)๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋ผ์ด์„ ์Šค๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. CPML ์ œํ•œ์€ ํŠนํžˆ XTTS v2 ๋ชจ๋ธ ๊ฐ€์ค‘์น˜์— ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

๋กœ์ปฌ TTS vs ElevenLabs ๋ฐ ํด๋ผ์šฐ๋“œ TTS

ElevenLabs, Google Text-to-Speech, Azure Speech๋Š” 2026๋…„ TTS์˜ ํ’ˆ์งˆ ์ƒํ•œ์„ ์œผ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ํ’ˆ์งˆ ์ƒํ•œ์„ : ElevenLabs > StyleTTS 2 โ‰ˆ XTTS v2 > F5-TTS โ‰ˆ Coqui TTS > Piper.
  • ์ง€์—ฐ ์‹œ๊ฐ„: ๋กœ์ปฌ Piper(์ฒซ ์˜ค๋””์˜ค ~30~50 ms)๋Š” ElevenLabs API ์™•๋ณต(~300~500 ms)๋ณด๋‹ค ๋น ๋ฆ…๋‹ˆ๋‹ค.
  • ๋น„์šฉ: ElevenLabs๋Š” ์›” $5~99 ์š”๊ธˆ์„ ์ฒญ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๋กœ์ปฌ TTS๋Š” ์ดˆ๊ธฐ ํ•˜๋“œ์›จ์–ด ์ดํ›„ $0์ž…๋‹ˆ๋‹ค.
  • ํ”„๋ผ์ด๋ฒ„์‹œ: ๋กœ์ปฌ TTS = ์˜ค๋””์˜ค ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋””์—๋„ ์ „์†ก๋˜์ง€ ์•Š์Œ. ๋ฏผ๊ฐํ•œ ์ฝ˜ํ…์ธ ์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
  • ์˜คํ”„๋ผ์ธ ๊ธฐ๋Šฅ: ๋กœ์ปฌ = ์™„์ „ ์˜คํ”„๋ผ์ธ. ElevenLabs = ์ธํ„ฐ๋„ท ํ•„์š”.
  • ํด๋ผ์šฐ๋“œ๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ: ์ „๋ฌธ ์Œ์„ฑ ์ œ์ž‘, ์ตœ๊ณ  ํ’ˆ์งˆ์ด ํ•„์š”ํ•œ ๊ณ ๊ฐ ๋Œ€๋ฉด ์ œํ’ˆ.
  • ๋กœ์ปฌ์„ ์‚ฌ์šฉํ•  ๋•Œ: ํ”„๋ผ์ด๋ฒ„์‹œ ์ค‘์š” ์˜ค๋””์˜ค, ์ž„๋ฒ ๋””๋“œ ์žฅ์น˜, ๋น„์šฉ์— ๋ฏผ๊ฐํ•œ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ, ์˜คํ”„๋ผ์ธ ํ™˜๊ฒฝ.

์„ ํƒ ๋ฐฉ๋ฒ•

์š”๊ตฌ ์‚ฌํ•ญ์—์„œ ์˜ฌ๋ฐ”๋ฅธ TTS ์—”์ง„๊นŒ์ง€์˜ ๊ฒฐ์ • ๋‹ค์ด์–ด๊ทธ๋žจ:

๐Ÿ“ ํ•œ ๋ฌธ์žฅ์œผ๋กœ

์Œ์„ฑ ๋ณต์ œ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ XTTS v2(์ตœ๊ณ  ํ’ˆ์งˆ) ๋˜๋Š” F5-TTS(๋” ๋น ๋ฆ„) ๋˜๋Š” Coqui TTS(์˜คํ”ˆ ๋ผ์ด์„ ์Šค). CPU ์†๋„๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ Piper. ์ฐฝ์˜์  ์˜ค๋””์˜ค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ Bark. ์ตœ๊ณ ์˜ ์˜์–ด ํ’ˆ์งˆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ StyleTTS 2.

๐Ÿ’ฌ ์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด

๋ˆ„๊ตฐ๊ฐ€์˜ ์Œ์„ฑ์„ ๋ณต์ œํ•˜๋ ค๋ฉด ํ’ˆ์งˆ์„ ์œ„ํ•ด XTTS v2, ๋” ๋น ๋ฅธ ์ถ”๋ก ์„ ์œ„ํ•ด F5-TTS, ํ—ˆ์šฉ์  ๋ผ์ด์„ ์Šค๋ฅผ ์œ„ํ•ด Coqui VITS๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. Raspberry Pi์šฉ ์Œ์„ฑ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒฝ์šฐ Piper๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. ์Œํ–ฅ ํšจ๊ณผ๊ฐ€ ์žˆ๋Š” ํŒŸ์บ์ŠคํŠธ๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒฝ์šฐ Bark๋ฅผ ์‹œ๋„ํ•˜์‹ญ์‹œ์˜ค.

  • ์Œ์„ฑ ๋ณต์ œ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ ์˜ˆ: XTTS v2(์ตœ๊ณ  ํ’ˆ์งˆ, CPML) ๋˜๋Š” F5-TTS(๋” ๋น ๋ฆ„, CC-BY-NC-4.0) ๋˜๋Š” Coqui VITS(์ข‹์€ ํ’ˆ์งˆ, MPL 2.0). ์•„๋‹ˆ์˜ค: Piper(์†๋„), StyleTTS 2(ํ’ˆ์งˆ).
  • CPU / Raspberry Pi ์ „์šฉ์œผ๋กœ ์‹คํ–‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ? โ†’ Piper๋งŒ. Kokoro๋Š” ๋” ๋†’์€ ํ’ˆ์งˆ CPU ๋Œ€์•ˆ์ž…๋‹ˆ๋‹ค.
  • ๋น„์Œ์„ฑ ์‚ฌ์šด๋“œ๊ฐ€ ์žˆ๋Š” ์ฐฝ์˜์  ์˜ค๋””์˜ค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ Bark.
  • ์ตœ๊ณ ์˜ ์˜์–ด ๋‚ด๋ ˆ์ด์…˜ ํ’ˆ์งˆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ StyleTTS 2.
  • ๋‹ค๊ตญ์–ด ์ง€์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ XTTS v2(17๊ฐœ ์–ธ์–ด, ๋‹ค๊ตญ์–ด ๋ณต์ œ), Coqui(20๊ฐœ+ ์–ธ์–ด), Piper(20๊ฐœ+ ์–ธ์–ด ํŒจํ‚ค์ง€).
  • ์™„์ „ํžˆ ์ƒ์—…์ ์ธ MIT ๋ผ์ด์„ ์Šค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ? โ†’ Piper, Bark ๋˜๋Š” StyleTTS 2.
  • ์Œ์„ฑ ์–ด์‹œ์Šคํ„ดํŠธ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ• ์ค‘์ž…๋‹ˆ๊นŒ? โ†’ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„ TTS ์ถœ๋ ฅ์„ ์œ„ํ•ด Piper๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค(/ko/power-local-llm/build-local-voice-assistant-2026 ์ฐธ์กฐ).

์ž์ฃผ ๋ฌป๋Š” ์งˆ๋ฌธ

XTTS v2๋กœ ์Œ์„ฑ์„ ๋ณต์ œํ•˜๋ ค๋ฉด ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์ฐธ์กฐ ์˜ค๋””์˜ค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ?

XTTS v2๋Š” ์ตœ์†Œ 3์ดˆ์˜ ๊นจ๋—ํ•œ ์ฐธ์กฐ ์˜ค๋””์˜ค๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ 6์ดˆ ์ด์ƒ์ด๋ฉด ๊ฒฐ๊ณผ๊ฐ€ ํ˜„์ €ํžˆ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์˜ค๋””์˜ค๋Š” ๋ฐฐ๊ฒฝ ์†Œ์Œ์ด ์ตœ์†Œํ™”๋œ ๋‹จ์ผ ํ™”์ž์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค.

Piper TTS๋ฅผ ์ƒ์—…์  ์ œํ’ˆ์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

์˜ˆ. Piper๋Š” MIT ๋ผ์ด์„ ์Šค๋กœ ์ œํ•œ ์—†๋Š” ์ƒ์—…์  ์‚ฌ์šฉ์ด ํ—ˆ์šฉ๋ฉ๋‹ˆ๋‹ค. ์Œ์„ฑ ๋ชจ๋ธ(ONNX ํŒŒ์ผ)์€ ์Œ์„ฑ๋ณ„๋กœ ๋ณ„๋„ ๋ผ์ด์„ ์Šค๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๋ฐฐํฌ ์ „ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค.

ํšŒ์‚ฌ๊ฐ€ ๋ฌธ์„ ๋‹ซ์€ ํ›„์—๋„ Coqui TTS๊ฐ€ ์œ ์ง€ ๊ด€๋ฆฌ๋ฉ๋‹ˆ๊นŒ?

์˜ˆ, ํ•˜์ง€๋งŒ ์†๋„๊ฐ€ ์ค„์–ด๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. Coqui ํšŒ์‚ฌ๋Š” 2023๋…„ ๋ง์— ๋ฌธ์„ ๋‹ซ์•˜์ง€๋งŒ ์˜คํ”ˆ์†Œ์Šค ์ €์žฅ์†Œ(coqui-ai/TTS)๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ธฐ์—ฌ์ž๋“ค์ด ์œ ์ง€ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

์–ด๋–ค ๋กœ์ปฌ TTS ์—”์ง„์ด ์ตœ๊ณ ์˜ ๋‹ค๊ตญ์–ด ์ง€์›์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๊นŒ?

XTTS v2๋Š” 17๊ฐœ ์–ธ์–ด๋ฅผ ์ง€์›ํ•˜๋ฉฐ ๋‹ค๊ตญ์–ด ์Œ์„ฑ ๋ณต์ œ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. Coqui TTS๋Š” 20๊ฐœ ์ด์ƒ์˜ ์–ธ์–ด ๋ชจ๋ธ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ผ ์ฐธ์กฐ ์ƒ˜ํ”Œ์—์„œ ์—ฌ๋Ÿฌ ์–ธ์–ด๋กœ ๋ณต์ œํ•ด์•ผ ํ•œ๋‹ค๋ฉด XTTS v2๊ฐ€ ์œ ์ผํ•œ ์˜ต์…˜์ž…๋‹ˆ๋‹ค.

Bark๊ฐ€ ์Œ์•…์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

Bark๋Š” `[music]` ํ† ํฐ์œผ๋กœ ๊ฐ„๋‹จํ•œ ์Œ์•… ์กฐ๊ฐ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ „์šฉ ์Œ์•… ์ƒ์„ฑ๊ธฐ๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค โ€” ์ถœ๋ ฅ์ด ์งง๊ณ  ์ผ๊ด€๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์Œ์„ฑ ๋ณต์ œ๋ฅผ ์œ„ํ•œ ์ตœ๊ณ ์˜ ๋ฌด๋ฃŒ ๋กœ์ปฌ TTS๋Š” ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

F5-TTS(CC-BY-NC-4.0)๋Š” ๋น„์ƒ์—…์  ์‚ฌ์šฉ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ƒ์—…์  ์‚ฌ์šฉ์˜ ๊ฒฝ์šฐ Coqui TTS(VITS ๋ฐฑ์—”๋“œ, MPL 2.0). XTTS v2๋Š” ์ตœ๊ณ ์˜ ํ’ˆ์งˆ์ด์ง€๋งŒ CPML์ด ์ƒ์—…์  ๋ฐฐํฌ๋ฅผ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค.

Apple Silicon Mac์—์„œ XTTS v2๋ฅผ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

์˜ˆ, ํ•˜์ง€๋งŒ CPU ์ „์šฉ โ€” M5 Pro์—์„œ ์•ฝ 3๋ฐฐ ์‹ค์‹œ๊ฐ„์ž…๋‹ˆ๋‹ค. ํ˜„์žฌ TTS ์—”์ง„์„ ์œ„ํ•œ Metal GPU ๊ฐ€์†์ด ์—†์Šต๋‹ˆ๋‹ค.

์–ด๋–ค ๋กœ์ปฌ TTS ์—”์ง„์ด ๊ฐ€์žฅ ์ธ๊ฐ„์ฒ˜๋Ÿผ ๋“ค๋ฆฝ๋‹ˆ๊นŒ?

์˜์–ด ๋‚ด๋ ˆ์ด์…˜์˜ ๊ฒฝ์šฐ StyleTTS 2 โ€” MOS ~4.3. XTTS v2์™€ F5-TTS๋Š” ๋ณต์ œ๋œ ์Œ์„ฑ ์ž์—ฐ์Šค๋Ÿฌ์›€์—์„œ ๊ฒฝ์Ÿ์ (~4.1). ์–ด๋–ค ๊ฒƒ๋„ ElevenLabs Turbo v2์— ํ•„์ ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์ฐธ๊ณ  ์ž๋ฃŒ

  • GitHub์˜ Piper TTS โ€” ์†Œ์Šค ์ฝ”๋“œ, ์Œ์„ฑ ํŒจํ‚ค์ง€, ONNX ๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ ๋ฐ Raspberry Pi ์„ค์ • ๊ฐ€์ด๋“œ.
  • GitHub์˜ Coqui TTS โ€” ์†Œ์Šค ์ฝ”๋“œ, ๋ชจ๋ธ ๋ชฉ๋ก, ์Œ์„ฑ ๋ณต์ œ ๋ฌธ์„œ ๋ฐ Python API ์ฐธ์กฐ.
  • XTTS v2 ๋ฌธ์„œ โ€” XTTS v2 ๋ชจ๋ธ ์นด๋“œ, ๋ผ์ด์„ ์Šค(CPML) ๋ฐ ์Œ์„ฑ ๋ณต์ œ API.
  • GitHub์˜ Bark โ€” ์†Œ์Šค ์ฝ”๋“œ, ์˜ค๋””์˜ค ํ”„๋กฌํ”„ํŠธ ํ† ํฐ, ๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ ๋ฐ ์ถœ๋ ฅ ์˜ˆ์ œ.
  • GitHub์˜ StyleTTS 2 โ€” ์•„ํ‚คํ…์ฒ˜ ๋…ผ๋ฌธ, ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ ๋ฐ ์ถ”๋ก  ๊ฐ€์ด๋“œ.
  • GitHub์˜ F5-TTS โ€” zero-shot ์Œ์„ฑ ๋ณต์ œ๊ฐ€ ์žˆ๋Š” flow-matching TTS.
  • GitHub์˜ Kokoro TTS โ€” Apache 2.0 ๋ผ์ด์„ ์Šค์˜ ๊ฒฝ๋Ÿ‰ ๊ณ ํ’ˆ์งˆ TTS, CPU์— ์ตœ์ ํ™”.
  • Hugging Face์˜ Piper voices โ€” ์Œ์„ฑ๋ณ„ ๋ผ์ด์„ ์Šค ์ •๋ณด์™€ ํ•จ๊ป˜ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ์–ธ์–ด/์Œ์„ฑ ํŒจํ‚ค์ง€.
  • Piper ์Œ์„ฑ ์ƒ˜ํ”Œ โ€” ์ง€์›๋˜๋Š” ์–ธ์–ด์˜ ๋ชจ๋“  Piper ์Œ์„ฑ์— ๋Œ€ํ•œ ์˜ค๋””์˜ค ๋ฐ๋ชจ.

โ† ๊ณ ๊ธ‰ ๋กœ์ปฌ LLM์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๋กœ์ปฌ TTS 2026: Piper vs XTTS v2 vs F5-TTS ๋น„๊ต | PromptQuorum