PromptQuorumPromptQuorum
ホーム/Power Local LLM/ローカルTTSとボイスクローニング2026:Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2
Voice, Speech & Multimodal

ローカルTTSとボイスクローニング2026:Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2

·16分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

2026年には、6つのローカルTTSエンジンがそれぞれ異なるユースケースで競い合っています:CPUと組み込みハードウェアでの速度を重視するPiper、品質とボイスクローニングのバランスを提供するCoqui TTS、最高品質のボイスクローニング(6秒の参照音声で17言語でのクローン作成)を実現するXTTS v2、新しいフローマッチングアーキテクチャによるゼロショットボイスクローニングを提供するF5-TTS、笑い声や音楽を含む創造的な生成型オーディオを提供するBark、そして英語ナレーションで人間に近い品質を誇るStyleTTS 2。このガイドでは、品質・速度・VRAM要件・ボイスクローニング能力・多言語対応・ライセンスを6つ全エンジンにわたって比較します。

重要なポイント

  • Piperは速度と組み込みアプリケーションの最良の選択です。 CPUのみで実行され、Raspberry Pi 5でリアルタイム音声を生成し、20+言語をダウンロード可能なボイスパックでサポートしています。GPU なし、Python の複雑性なし、MIT ライセンス。
  • XTTS v2は2026年のローカルボイスクローニング品質の最高です。 6秒の参照オーディオを与えると、17言語でボイスをクローンします。4–6 GB GPU VRAM が必要です。CPML ライセンスは商用利用を制限しています。
  • F5-TTSはゼロショットボイスクローニング向けの急速に成長している代替案です。 GPTの代わりにフローマッチングアーキテクチャを使用し、~3秒の参照オーディオからボイスをクローンし、より高速なインファレンスでXTTS v2に匹敵する品質を実現します。ライセンス:CC-BY-NC-4.0(非商用のみ)。
  • Coqui TTSはもっとも柔軟なオープンソースTTSツールキットです。 複数のバックエンド(Tacotron2、VITS、XTTS)、ボイスクローニング、20+言語をMIT 2.0ライセンスでサポートしています。注:Coqui社は2023年に閉鎖されました。プロジェクトはコミュニティによって維持されています。
  • Barkは非言語オーディオを生成する唯一のローカルTTSです。 笑い、咳、ため息、音楽スニペット、周囲音を音声と共に生成できます — クリエイティブオーディオ、ポッドキャスト制作、インタラクティブフィクションに有用です。
  • StyleTTS 2はすべてのオープンソース英語TTSエンジンの最高MOS(Mean Opinion Score)スコアを達成します。 拡散ベースのスタイルトランスファーは英語ナレーションで準人間的な自然さを生成します。英語のみをサポートし、ボイスクローニングはありません。
  • ライセンスは商用利用にとって重要です。 Piper(MIT)、Bark(MIT)、StyleTTS 2(MIT):制限なし商用。Coqui(MPL 2.0):商用利用は開示条件で許可。XTTS v2(CPML):商用利用にはライセンス契約が必要。F5-TTS(CC-BY-NC-4.0):別途の契約なしの商用利用は禁止。
  • どれも大規模な商用TTS品質には相当しません。 ElevenLabs、Google Text-to-Speech、Azure Speech はまだ一貫性、自然さ、レイテンシーですべてのローカルエンジンを上回ります。プライバシー、コスト、またはオフライン運用が絶対品質より重要な場合は、ローカル TTS が正しい選択です。

クイックファクト

  • 最速のローカルTTS: Piper — Raspberry Pi 5でリアルタイム動作、モダンなデスクトップCPUでリアルタイムの約10倍速。
  • 最高のボイスクローニング品質: XTTS v2 — 6秒の参照音声、17言語での多言語クローニング。
  • 最速のゼロショットボイスクローニング(新アーキテクチャ): F5-TTS — 約3秒の音声、フローマッチング、RTX 4070で約3〜5倍のリアルタイム速度。
  • 最も柔軟なオープンソースツールキット: Coqui TTS — VITS、Tacotron2、XTTSバックエンドをサポート、20+言語モデル。
  • 唯一の生成的オーディオ(非音声サウンド): Bark — 笑い声、ため息、音楽、環境音。最も遅い。
  • 最高の英語ナレーション品質: StyleTTS 2 — 拡散ベースのスタイル転送、LJSpeechベンチマークで人間に近いMOS。
  • VRAM要件: Piper:CPUのみ。Kokoro:CPU / 1〜2 GB。StyleTTS 2:2〜4 GB。Coqui VITS:2〜4 GB。F5-TTS:3〜5 GB。XTTS v2:4〜6 GB。Bark:4〜8 GB。

ローカルTTSが重要な理由

クラウドTTSサービス(ElevenLabs、Google TTS、Amazon Polly、Azure Speech)は便利ですが、文字単位の課金、音声データ保持ポリシー、ネットワーク往復による遅延という問題があります。ローカルTTSはこれらすべてを解消します。

  • プライバシー: テキストコンテンツが端末の外に出ることは一切ありません。医療口述、法律要約、日記の読み上げ、機密文書の音声化に不可欠です。
  • コスト: クラウドTTSの料金は通常100万文字あたり4〜30ドルです。月に1000万文字を生成する開発者は、一度きりのローカルセットアップで月40〜300ドルを節約できます。
  • レイテンシ: ネットワーク往復がありません。PiperはCPUで50ms未満で最初の音声トークンを生成します — あらゆるクラウドTTSの往復より高速です。
  • カスタマイズ: ボイスクローニング(XTTS v2、F5-TTS、Coqui)により、数秒の音声からカスタムボイスを作成できます。クラウドプロバイダはクローン音声1つにつき月10ドル以上請求します。
  • オフライン動作: 飛行機内、セキュリティ施設、インターネットのない遠隔地で動作します。キオスクや機器向けの組み込み音声UIとして使用できます。

比較表

プロダクションデプロイに最も重要なメトリクスで比較したすべてのローカルTTSエンジン。

📍 一文で説明

PiperはCPU最速;XTTS v2は最高のボイスクローニング品質;F5-TTSは新しいアーキテクチャでゼロショットクローニングを提供;Barkは笑い声と音楽を生成できる唯一のエンジン;StyleTTS 2は英語ナレーションの自然さが最高。

💬 簡潔に説明

ほとんどのオフラインTTSニーズに:速度とシンプルさならPiper、寛容なライセンスでボイスクローニングならCoqui、GPUで最高のクローニング品質ならXTTS v2、新しいアーキテクチャで高速なゼロショットクローニングならF5-TTS。

ツール品質速度ボイスクローニング多言語VRAMライセンスMOS(英語)
Piper良い非常に速い(CPU)なしあり(20+言語)CPUのみMIT~3.5
Kokoro非常に良い速い(CPU)なし英語 + 拡張中CPU / 1〜2 GBApache 2.0~4.0
Coqui TTS非常に良い中程度ありあり(20+言語)2〜4 GBMPL 2.0~3.8
XTTS v2優秀遅いあり(最高)あり(17言語)4〜6 GBCPML(商用制限)~4.1
F5-TTS優秀中程度〜速いあり(ゼロショット)あり(多言語)3〜5 GBCC-BY-NC-4.0~4.1
Barkユニーク / 変動遅い限定あり(多言語)4〜8 GBMIT~3.2〜4.0(変動)
StyleTTS 2優秀(英語)中程度なし主に英語2〜4 GBMIT~4.3

MOS(平均意見スコア)は1〜5のスケールで、5は人間の音声と区別がつかない。スコアは概算であり、公開されたベンチマークまたはコミュニティ評価に基づいています。MOSはテスト文と聴衆によって大きく異なります。人間参照MOS:約4.5。

初回音声レイテンシ比較

初回音声レイテンシはテキスト入力から最初の音声出力までの時間です。音声アシスタントやインタラクティブアプリケーションにとって重要です。バッチ処理(オーディオブック、ポッドキャスト制作)では、初回音声レイテンシよりも総スループットの方が重要です。

エンジン初回音声(RTX 4070)初回音声(CPU)初回音声(M5 Pro)
Piper~30 ms~50 ms~40 ms
Kokoro~50 ms~80 ms~60 ms
Coqui VITS~100 ms~300 ms~150 ms
StyleTTS 2~150 ms~500 ms~200 ms
F5-TTS~200 ms~800 ms~300 ms
XTTS v2~300 ms~1500 ms~500 ms
Bark~500 ms~3000 ms~800 ms

Piper TTS — 最速の軽量オプション

PiperはRhasspyがホームオートメーションと組み込み用途向けに開発した高速なローカルTTSシステムです。 onnxruntimeバックエンドを使用したVITSベースのニューラルアーキテクチャを採用しており、GPUなしでRaspberry Pi 4または5上でリアルタイム動作するよう最適化されています。

  • アーキテクチャ: ONNXインターフェースを持つVITSニューラルTTS。シングルボードコンピュータと組み込みLinux向けに設計。
  • インストール: pip install piper-tts。事前トレーニング済みボイスパックはHugging FaceのPiper voicesリポジトリで入手可能。
  • 使用方法: echo "こんにちは" | piper --model ja_JP-kokoro-medium.onnx --output_file output.wav
  • ボイスパック: 20+言語、各言語に複数のボイスオプション。各ボイスパックは20〜200 MBのONNXモデルファイルです。
  • 速度: モダンなデスクトップCPUでリアルタイムの約10倍速。Raspberry Pi 5でリアルタイム。50ms未満の初回音声レイテンシ。
  • Apple Silicon: M5 Pro(CPU、ARM NEON)で約15倍のリアルタイム速度。GPUなしでネイティブ動作 — Macで優れたパフォーマンス。
  • サンプルを聴く: Piper音声サンプル
  • 最適用途: ホームアシスタント、キオスクデバイス、組み込み音声UI、GPUが利用できないプライバシー重視の読み上げ。
  • 制限: ボイスクローニングなし。品質は「良い」水準 — 自然に聞こえますが、XTTS v2やStyleTTS 2と比べると明確に合成音声。
  • ライセンス: MIT — 完全に商用可、制限なし。
  • Kokoro TTS — Piperの代替: Kokoro TTSは軽量カテゴリでPiperの新興代替品です。CPUで高速なまま、Piperより高い自然さを達成します。Apache 2.0ライセンス。PiperのクオリティがニーズをMたしていないが、GPU VRAMを用意できない場合は、Kokoroを試す価値があります。

Coqui TTS — 最高のオープンソース総合ツールキット

Coqui TTSは複数のモデルアーキテクチャとボイスクローニングをサポートするPython音声合成ツールキットです。 Coqui社(2023年末に閉鎖)によって開発され、現在はオープンソースコミュニティによってメンテナンスされています。このツールキットはTacotron2、VITS、XTTSバックエンドをサポートしています。

  • インストール: pip install TTS。モデルは初回使用時に自動ダウンロード。
  • ボイスクローニング: 6秒以上の参照音声を提供します。tts --text "こんにちは" --model_name tts_models/ja/kokoro/tacotron2-DDC --speaker_wav sample.wav --out_path output.wav
  • バックエンドオプション: VITS(最速、良質)、Tacotron2(旧式、低速)、XTTS(最高品質、XTTS v2セクション参照)。
  • 言語: tts --list_modelsで20+言語モデルが利用可能。
  • VRAM: VITSバックエンドで2〜4 GB;XTTSバックエンドで4〜6 GB。
  • Apple Silicon: M5 Pro(CPU)で約8倍のリアルタイム速度。Metal GPU加速なし。バッチ生成に使用可能。
  • コミュニティ状況: Coqui社は2023年末に閉鎖。オープンソースリポジトリ(coqui-ai/TTS)はコミュニティによりメンテナンス中。アクティブな商用サポートなし。
  • ライセンス: MPL 2.0 — 商用利用可、ただし変更のソースコードを開示する必要あり。
  • 最適用途: オープンソースツールキットと寛容なライセンスでボイスクローニングを求める開発者。

XTTS v2 — 最高のボイスクローニング品質

XTTS v2(Coqui製)は2026年においてローカルで利用できる最高品質のボイスクローニングエンジンです。 多言語転送を持つGPTベースのアーキテクチャを使用 — 同じ6秒の音声から英語で音声をクローンし、スペイン語、ドイツ語、フランス語または他の14言語で話すことができます。

  • アーキテクチャ: スピーカーコンディショニングを持つGPTベースのTTS。韻律モデリングのためのビジョントランスフォーマー。
  • ボイスクローニング: 6秒の参照音声で説得力のあるボイスクローンに十分です。3秒でも合格点の品質が得られます。
  • 多言語クローニング: 1つの言語で音声をクローンし、同じ声の特性で17の異なる言語で音声を生成。
  • VRAM: 4〜6 GB GPU推奨。CPUでも動作しますが約5〜10倍遅くなります。
  • 速度: 遅い — RTX 4070で約2倍のリアルタイム速度で生成。リアルタイム音声アシスタントパイプラインには不向き。
  • Apple Silicon: M5 Pro(CPU、Metalアクセラレーションなし)で約3倍のリアルタイム速度。バッチ音声生成には使用可能、リアルタイム音声アシスタント出力には不向き。
  • ライセンス: CPML(Coqui Public Model License)。研究・個人利用は無料。商用利用にはライセンス契約が必要。
python
from TTS.api import TTS

# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
    text="Bonjour, je suis votre assistant vocal.",
    speaker_wav="reference_voice.wav",   # 6+ seconds of the target speaker
    language="fr",                        # Output in French using the cloned voice
    file_path="output.wav"
)

⚠️Warning: XTTS v2はCPMLライセンスの対象です。製品、SaaSアプリケーション、またはサービスでの商用利用には商用ライセンス契約が必要です。デプロイ前にライセンス条項を確認してください。

Bark — 音声を超えた生成的オーディオ

Bark(Suno AI製)は、テキストプロンプトから音声、音楽、笑い声、咳、ため息、環境音を生成する生成型テキスト-オーディオモデルです。 従来のTTSエンジンではなく、テキストプロンプトをオーディオ生成の指示として解釈する生成モデルです。

  • ユニークな機能: テキストに`[laughs][sighs][clears throat][music]、または[sound effect: wind]`を含めると、Barkは音声と共にそれらのサウンドを生成します。
  • 従来のTTSとは異なる制御性: 同じ入力でも実行ごとに出力が異なります。品質は一貫していません — 優れた出力もあれば、アーティファクトや不明瞭なセグメントがある出力もあります。
  • 速度: 遅い — RTX 4090でさえリアルタイムより2〜4倍遅い。インタラクティブアプリケーションには不向き。
  • Apple Silicon: M5 Pro(CPU、MPS部分的)で約1.5倍のリアルタイム速度。MPS(Metal Performance Shaders)サポートは部分的 — ほとんどの推論は依然としてCPUにフォールバック。
  • 最適用途: クリエイティブオーディオ、効果音付きポッドキャスト制作、インタラクティブフィクション、実験的音声アプリケーション。
  • VRAM: 4〜8 GB GPU。CPUでは品質が大幅に低下します。
  • インストール: pip install suno-bark。モデルは初回実行時にダウンロード(約2 GB)。
  • ライセンス: MIT — 完全に商用可。
  • 制限: 信頼性の高いボイスクローニングなし。Barkに付属する「音声プリセット」は概算的なもの — 真のボイスクローニングシステムではありません。

StyleTTS 2 — 最高の自然な品質

StyleTTS 2はLJSpeechベンチマークで人間に近いMOS(平均意見スコア)を達成する拡散ベースのTTSモデルです。 拡散を使ったスタイル転送により音声を生成 — VITSベースのモデルよりも自然で表現豊かな音声を生成します。

  • アーキテクチャ: 拡散ベースのスタイル転送。テキストを音声に決定論的にマッピングするのではなく、スピーキングスタイルの学習した分布からサンプリング。
  • 品質: LJSpeechベンチマークにおけるすべてのオープンソース英語TTSエンジンの中で最高のMOSスコア。
  • 最適用途: オーディオブックのナレーション、プロフェッショナルな音声、ポッドキャスト制作。
  • インストール: GitHubリポジトリをクローン、要件をインストール(pip install -r requirements.txt)、モデルチェックポイントをダウンロード(約500 MB)。
  • 言語サポート: 主に英語。非英語での使用は推奨しません。
  • ボイスクローニング: サポートなし。StyleTTS 2はトレーニング済みスピーカーボイスのみで生成。
  • VRAM: 2〜4 GB GPU。RTX 4070で約5〜8倍のリアルタイム速度でXTTS v2より高速。
  • Apple Silicon: M5 Pro(CPU)で約6倍のリアルタイム速度。Metalアクセラレーションなし。
  • ライセンス: MIT — 完全に商用可。

F5-TTS — ゼロショットボイスクローニング、完全オープン

F5-TTSはゼロショットボイスクローニングを持つフローマッチングベースのTTSモデルです — ファインチューニングなしで約3秒の参照音声からあらゆる音声をクローンできます。

  • アーキテクチャ: XTTS v2が使用するGPTベースのアーキテクチャではなく、フローマッチング(拡散のバリアントアプローチ)を採用。通常、競争力のある品質でより高速な推論を提供。
  • ボイスクローニング: 約3秒の参照音声で十分。ファインチューニング不要。
  • 品質: 英語でXTTS v2と競争力あり。コミュニティ評価でMOSスコア約4.1。
  • 速度: RTX 4070で約3〜5倍のリアルタイム速度 — XTTS v2より高速。
  • 言語: 英語と中国語の強力なサポート、他言語への拡大中。
  • Apple Silicon: M5 Pro(CPU)で約2倍のリアルタイム速度。現在Metalアクセラレーションなし。
  • VRAM: 3〜5 GB GPU推奨。
  • インストール: pip install f5-ttsまたはGitHubからクローン。
  • ライセンス: CC-BY-NC-4.0 — 非商用利用のみ。商用利用には別途契約が必要。

ライセンス詳細 — 商用利用において重要

ライセンス条件はプロダクションデプロイにとって重要です。

ツールライセンス商用利用可?主な条件
PiperMITはい — 制限なしMIT著作権表示を含める
KokoroApache 2.0はい — 制限なしApache 2.0表示を含める
Coqui TTSMPL 2.0はい — 条件あり変更のソースコードを開示する必要あり
XTTS v2CPML研究・個人利用のみ商用利用にはライセンス契約が必要
F5-TTSCC-BY-NC-4.0非商用のみ別途の契約なしの商用利用は禁止
BarkMITはい — 制限なしMIT著作権表示を含める
StyleTTS 2MITはい — 制限なしMIT著作権表示を含める

📌Note: Coqui TTS(ツールキット、MPL 2.0)とXTTS v2(特定のモデル、CPML)はライセンスが異なります。商用製品でCoqui TTSツールキットをVITSまたはTacotron2バックエンドでMPL 2.0の下で使用できます。CPML制限はXTTS v2モデルの重みに特定して適用されます。

ローカルTTSとElevenLabsおよびクラウドTTSの比較

ElevenLabs、Google Text-to-Speech、Azure Speechは2026年においてTTSの品質上限のままです。

  • 品質上限: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper。
  • レイテンシ: ローカルPiper(初回音声30〜50 ms)はElevenLabs APIの往復(300〜500 ms)より高速。
  • コスト: ElevenLabsは月5〜99ドルのティア制。ローカルTTSは一度のハードウェア購入後0ドル。
  • ボイスクローニング: ElevenLabs Instant Voice Clone ≈ XTTS v2品質。ElevenLabs Professional Voice Cloneはすべてのローカルエンジンを超える。
  • プライバシー: ローカルTTS = 音声データはどこにも送信されない。ElevenLabs = 音声がそのサーバーで処理される。
  • オフライン機能: ローカル = 完全オフライン。ElevenLabs = インターネットが必要。
  • クラウドを使うべき場合: プロフェッショナルな音声制作、最高品質が求められるユーザー向け製品。
  • ローカルを使うべき場合: プライバシー重視の音声、組み込みデバイス、コスト重視のバッチ処理、オフライン環境。

選び方

要件から適切なTTSエンジンへの意思決定フロー:

📍 一文で説明

ボイスクローニングが必要? → XTTS v2(最高品質)またはF5-TTS(高速、新アーキテクチャ)またはCoqui TTS(オープンライセンス)。CPU速度が必要? → Piper。創作オーディオが必要? → Bark。最高の英語品質が必要? → StyleTTS 2。

💬 簡潔に説明

ボイスクローニング:品質ならXTTS v2、速度ならF5-TTS、寛容なライセンスならCoqui VITS。CPU/Raspberry Pi:Piperのみ。ポッドキャスト効果音:Bark。英語オーディオブック:StyleTTS 2。

  • ボイスクローニングが必要? → XTTS v2(最高品質、CPML)またはF5-TTS(新アーキテクチャ、高速、CC-BY-NC-4.0)またはCoqui VITS(良い品質、MPL 2.0)。クローニング不要:Piper(速度)またはStyleTTS 2(品質)。
  • CPUのみ / Raspberry Piが必要? → Piperのみ。Kokoroはより高品質なCPU代替(Apache 2.0)。他のすべてのエンジンはGPUが必要。
  • 非音声サウンドを含む創作オーディオが必要? → Bark。他のローカルエンジンは笑い声、ため息、音楽をネイティブに生成できない。
  • 最高の英語ナレーション品質が必要? → StyleTTS 2。
  • 多言語サポートが必要? → XTTS v2(17言語)、Coqui(20+)、Piper(20+パック)。
  • 完全に商用可能なMITライセンスが必要? → Piper、Bark、またはStyleTTS 2。
  • 音声アシスタントパイプラインを構築? → 低レイテンシTTS出力にPiper。

よくある質問

XTTS v2でボイスクローニングに必要な参照オーディオの量は?

XTTS v2は最低3秒のクリーンな参照オーディオを必要とします。6+秒でより良い結果が得られます。オーディオは単一の話者で、背景ノイズと音楽がなくなければなりません。高品質のソース素材は圧縮されたオーディオより良いクローンを生成します。

Piper TTSを商用製品で使用できますか?

はい。PiperはMITライセンスの下でライセンスされており、無制限の商用利用が可能です。製品にMITライセンス通知を含める必要があります。ボイスモデル(ONNXファイル)は音声ごとに個別のライセンスを持つ可能性があります。

どのローカルTTSエンジンが最高の多言語サポートを持っていますか?

XTTS v2は17言語で多言語ボイスクローニング対応しています — すべてのローカルエンジンの中で最も印象的な多言語機能です。Coqui TTSは20+言語モデルですが、多言語クローニングはありません。Piperは高速CPU推論のために20+言語ボイスパックを持っています。

どのローカルTTSエンジンが最も人間らしく聞こえますか?

英語ナレーションではStyleTTS 2 — すべてのオープンソース英語TTSエンジンの最高MOS(~4.3 vs 人間参照 ~4.5)を達成します。XTTS v2とF5-TTSはクローンボイスの自然さで競争力があります(~4.1)。

ソース

  • Piper TTS on GitHub — ソースコード、ボイスパック、ONNXモデルダウンロード、Raspberry Pi セットアップガイド。
  • Coqui TTS on GitHub — ソースコード、モデルリスト、ボイスクローニングドキュメント、Python API リファレンス。
  • XTTS v2 ドキュメント — XTTS v2 モデルカード、ライセンス(CPML)、ボイスクローニング API。
  • F5-TTS on GitHub — フローマッチング TTS、ゼロショットボイスクローニング、インストールガイド、多言語サポート。

← Power Local LLM に戻る

ローカルTTS 2026:Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2