重要なポイント
- Piperは速度と組み込みアプリケーションの最良の選択です。 CPUのみで実行され、Raspberry Pi 5でリアルタイム音声を生成し、20+言語をダウンロード可能なボイスパックでサポートしています。GPU なし、Python の複雑性なし、MIT ライセンス。
- XTTS v2は2026年のローカルボイスクローニングの最良の選択ですが、非商用です。 6秒の参照オーディオを与えると、17言語でボイスをクローンします(4–6 GB GPU VRAM)。CPMLライセンスは非商用であり、Coquiが閉鎖(2024年1月)して以降は商用ライセンスが販売されていないため、XTTS v2は非商用専用として扱ってください。DockerやCIでは
COQUI_TOS_AGREED=1でCPMLを非対話的に承諾できます。 - F5-TTSはゼロショットボイスクローニング向けの急速に成長している代替案です。 GPTの代わりにフローマッチングアーキテクチャを使用し、~3秒の参照オーディオからボイスをクローンし、より高速なインファレンスでXTTS v2に匹敵する品質を実現します。ライセンス:CC-BY-NC-4.0(非商用のみ)。
- Coqui TTSはもっとも柔軟なオープンソースTTSツールキットです。 複数のバックエンド(Tacotron2、VITS、XTTS)、ボイスクローニング、20+言語をMPL 2.0ライセンスでサポートしています。注:Coqui社は2024年1月に閉鎖されました。プロジェクトはコミュニティによって維持されています。
- Barkは非言語オーディオを生成する唯一のローカルTTSです。 笑い、咳、ため息、音楽スニペット、周囲音を音声と共に生成できます — クリエイティブオーディオ、ポッドキャスト制作、インタラクティブフィクションに有用です。
- StyleTTS 2はすべてのオープンソース英語TTSエンジンの最高MOS(Mean Opinion Score)スコアを達成します。 拡散ベースのスタイルトランスファーは英語ナレーションで準人間的な自然さを生成します。英語のみをサポートし、ボイスクローニングはありません。
- ライセンスが商用利用を決め、その線引きは明確です。 商用製品に無料:Piper、Bark、StyleTTS 2(MIT)とKokoro、Tortoise(Apache 2.0)。条件付きで商用可:Coqui TTSツールキット(MPL 2.0、ツールキットの変更を開示)。非商用のみ:XTTS v2(CPML)とF5-TTS(CC-BY-NC-4.0) — いずれも別途の契約が必要です。商用のボイスクローニングにはTortoise(Apache 2.0)またはVITSバックエンドのCoquiツールキット(MPL 2.0)を使用してください。事実に基づく参考情報であり、法的助言ではありません。
- どれも大規模な商用TTS品質には相当しません。 ElevenLabs、Google Text-to-Speech、Azure Speech はまだ一貫性、自然さ、レイテンシーですべてのローカルエンジンを上回ります。プライバシー、コスト、またはオフライン運用が絶対品質より重要な場合は、ローカル TTS が正しい選択です。
クイックファクト
- 最速のローカルTTS: Piper — Raspberry Pi 5でリアルタイム動作、モダンなデスクトップCPUでリアルタイムの約10倍速。
- 最高のボイスクローニング品質: XTTS v2 — 6秒の参照音声、17言語での多言語クローニング。
- 最速のゼロショットボイスクローニング(新アーキテクチャ): F5-TTS — 約3秒の音声、フローマッチング、RTX 4070で約3〜5倍のリアルタイム速度。
- 最も柔軟なオープンソースツールキット: Coqui TTS — VITS、Tacotron2、XTTSバックエンドをサポート、20+言語モデル。
- 唯一の生成的オーディオ(非音声サウンド): Bark — 笑い声、ため息、音楽、環境音。最も遅い。
- 最高の英語ナレーション品質: StyleTTS 2 — 拡散ベースのスタイル転送、LJSpeechベンチマークで人間に近いMOS。
- 商用利用が無料: Piper、Bark、StyleTTS 2(MIT);Kokoro、Tortoise(Apache 2.0);Coqui TTSツールキット(MPL 2.0、条件あり)。非商用: XTTS v2(CPML)、F5-TTS(CC-BY-NC-4.0)。
- XTTS v2の音声と言語: 固定の音声リストはありません — 6秒の参照クリップを与えると、その音声をクローンします。モデルには組み込みの話者プリセットが同梱されており、17言語で生成します:en、es、fr、de、it、pt、pl、tr、ru、nl、cs、ar、zh-cn、ja、hu、ko、hi。
- XTTS v2のVRAM: モデル重みは~2 GB;実行には最低4 GB、リアルタイム推論には4〜6 GB推奨。
- CI/DockerでCPMLを承諾:
export COQUI_TOS_AGREED=1— 対話的なプロンプトは不要。 - VRAM要件: Piper:CPUのみ。Kokoro:CPU / 1〜2 GB。StyleTTS 2:2〜4 GB。Coqui VITS:2〜4 GB。F5-TTS:3〜5 GB。XTTS v2:4〜6 GB。Bark:4〜8 GB。Tortoise:4〜8 GB。
ローカルTTSが重要な理由
クラウドTTSサービス(ElevenLabs、Google TTS、Amazon Polly、Azure Speech)は便利ですが、文字単位の課金、音声データ保持ポリシー、ネットワーク往復による遅延という問題があります。ローカルTTSはこれらすべてを解消します。
- プライバシー: テキストコンテンツが端末の外に出ることは一切ありません。医療口述、法律要約、日記の読み上げ、機密文書の音声化に不可欠です。
- コスト: クラウドTTSの料金は通常100万文字あたり4〜30ドルです。月に1000万文字を生成する開発者は、一度きりのローカルセットアップで月40〜300ドルを節約できます。
- レイテンシ: ネットワーク往復がありません。PiperはCPUで50ms未満で最初の音声トークンを生成します — あらゆるクラウドTTSの往復より高速です。
- カスタマイズ: ボイスクローニング(XTTS v2、F5-TTS、Coqui)により、数秒の音声からカスタムボイスを作成できます。クラウドプロバイダはクローン音声1つにつき月10ドル以上請求します。
- オフライン動作: 飛行機内、セキュリティ施設、インターネットのない遠隔地で動作します。キオスクや機器向けの組み込み音声UIとして使用できます。
- スマートホーム: Piperは常時稼働のローカル音声インターフェースの主要TTS層で、Raspberry PiでもGPU不要でリアルタイム動作します。Home Assistantと連携した完全オフライン音声アシスタントは、スマートホーム向けローカル音声アシスタント →をご覧ください。
比較表
プロダクションデプロイに最も重要なメトリクスで比較したすべてのローカルTTSエンジン。
📍 一文で説明
PiperはCPU最速;XTTS v2は最高のボイスクローニング品質;F5-TTSは新しいアーキテクチャでゼロショットクローニングを提供;Barkは笑い声と音楽を生成できる唯一のエンジン;StyleTTS 2は英語ナレーションの自然さが最高。
💬 簡潔に説明
ほとんどのオフラインTTSニーズに:速度とシンプルさならPiper、寛容なライセンスでボイスクローニングならCoqui、GPUで最高のクローニング品質ならXTTS v2、新しいアーキテクチャで高速なゼロショットクローニングならF5-TTS。
| ツール | 品質 | 速度 | ボイスクローニング | 多言語 | VRAM | ライセンス | MOS(英語) |
|---|---|---|---|---|---|---|---|
| Piper | 良い | 非常に速い(CPU) | なし | あり(20+言語) | CPUのみ | MIT | ~3.5 |
| Kokoro | 非常に良い | 速い(CPU) | なし | 英語 + 拡張中 | CPU / 1〜2 GB | Apache 2.0 | ~4.0 |
| Coqui TTS | 非常に良い | 中程度 | あり | あり(20+言語) | 2〜4 GB | MPL 2.0 | ~3.8 |
| XTTS v2 | 優秀 | 遅い | あり(最高) | あり(17言語) | 4〜6 GB | CPML(非商用) | ~4.1 |
| F5-TTS | 優秀 | 中程度〜速い | あり(ゼロショット) | あり(多言語) | 3〜5 GB | CC-BY-NC-4.0 | ~4.1 |
| Bark | ユニーク / 変動 | 遅い | 限定 | あり(多言語) | 4〜8 GB | MIT | ~3.2〜4.0(変動) |
| StyleTTS 2 | 優秀(英語) | 中程度 | なし | 主に英語 | 2〜4 GB | MIT | ~4.3 |
| Tortoise | 優秀 | 非常に遅い(1文あたり数分) | あり | 主に英語 | 4〜8 GB | Apache 2.0 | ~4.2 |
MOS(平均意見スコア)は1〜5のスケールで、5は人間の音声と区別がつかない。スコアは概算であり、公開されたベンチマークまたはコミュニティ評価に基づいています。MOSはテスト文と聴衆によって大きく異なります。人間参照MOS:約4.5。
初回音声レイテンシ比較
初回音声レイテンシはテキスト入力から最初の音声出力までの時間です。音声アシスタントやインタラクティブアプリケーションにとって重要です。バッチ処理(オーディオブック、ポッドキャスト制作)では、初回音声レイテンシよりも総スループットの方が重要です。
| エンジン | 初回音声(RTX 4070) | 初回音声(CPU) | 初回音声(M5 Pro) |
|---|---|---|---|
| Piper | ~30 ms | ~50 ms | ~40 ms |
| Kokoro | ~50 ms | ~80 ms | ~60 ms |
| Coqui VITS | ~100 ms | ~300 ms | ~150 ms |
| StyleTTS 2 | ~150 ms | ~500 ms | ~200 ms |
| F5-TTS | ~200 ms | ~800 ms | ~300 ms |
| XTTS v2 | ~300 ms | ~1500 ms | ~500 ms |
| Bark | ~500 ms | ~3000 ms | ~800 ms |
Piper TTS — 最速の軽量オプション
PiperはRhasspyがホームオートメーションと組み込み用途向けに開発した高速なローカルTTSシステムです。 onnxruntimeバックエンドを使用したVITSベースのニューラルアーキテクチャを採用しており、GPUなしでRaspberry Pi 4または5上でリアルタイム動作するよう最適化されています。
- アーキテクチャ: ONNXインターフェースを持つVITSニューラルTTS。シングルボードコンピュータと組み込みLinux向けに設計。
- インストール:
pip install piper-tts。事前トレーニング済みボイスパックはHugging FaceのPiper voicesリポジトリで入手可能。 - 使用方法:
echo "こんにちは" | piper --model ja_JP-kokoro-medium.onnx --output_file output.wav - ボイスパック: 20+言語、各言語に複数のボイスオプション。各ボイスパックは20〜200 MBのONNXモデルファイルです。
- 速度: モダンなデスクトップCPUでリアルタイムの約10倍速。Raspberry Pi 5でリアルタイム。50ms未満の初回音声レイテンシ。
- Apple Silicon: M5 Pro(CPU、ARM NEON)で約15倍のリアルタイム速度。GPUなしでネイティブ動作 — Macで優れたパフォーマンス。
- サンプルを聴く: Piper音声サンプル
- 最適用途: ホームアシスタント、キオスクデバイス、組み込み音声UI、GPUが利用できないプライバシー重視の読み上げ。
- 制限: ボイスクローニングなし。品質は「良い」水準 — 自然に聞こえますが、XTTS v2やStyleTTS 2と比べると明確に合成音声。
- ライセンス: MIT — 完全に商用可、制限なし。
- Kokoro TTS — Piperの代替: Kokoro TTSは軽量カテゴリでPiperの新興代替品です。CPUで高速なまま、Piperより高い自然さを達成します。Apache 2.0ライセンス。PiperのクオリティがニーズをMたしていないが、GPU VRAMを用意できない場合は、Kokoroを試す価値があります。
Coqui TTS — 最高のオープンソース総合ツールキット
Coqui TTSは複数のモデルアーキテクチャとボイスクローニングをサポートするPython音声合成ツールキットです。 Coqui社(2024年1月に閉鎖)によって開発され、現在はオープンソースコミュニティによってメンテナンスされています。このツールキットはTacotron2、VITS、XTTSバックエンドをサポートしています。
- インストール:
pip install TTS。モデルは初回使用時に自動ダウンロード。 - ボイスクローニング: 6秒以上の参照音声を提供します。
tts --text "こんにちは" --model_name tts_models/ja/kokoro/tacotron2-DDC --speaker_wav sample.wav --out_path output.wav - バックエンドオプション: VITS(最速、良質)、Tacotron2(旧式、低速)、XTTS(最高品質、XTTS v2セクション参照)。
- 言語:
tts --list_modelsで20+言語モデルが利用可能。 - VRAM: VITSバックエンドで2〜4 GB;XTTSバックエンドで4〜6 GB。
- Apple Silicon: M5 Pro(CPU)で約8倍のリアルタイム速度。Metal GPU加速なし。バッチ生成に使用可能。
- コミュニティ状況: Coqui社は2024年1月に閉鎖。オープンソースリポジトリ(
coqui-ai/TTS)はコミュニティによりメンテナンス中。アクティブな商用サポートなし。 - ライセンス: MPL 2.0 — 商用利用可、ただし変更のソースコードを開示する必要あり。
- 最適用途: オープンソースツールキットと寛容なライセンスでボイスクローニングを求める開発者。
XTTS v2 — 最高のボイスクローニング品質
XTTS v2(Coqui製)は2026年においてローカルで利用できる最高品質のボイスクローニングエンジンです。 多言語転送を持つGPTベースのアーキテクチャを使用 — 同じ6秒の音声から英語で音声をクローンし、スペイン語、ドイツ語、フランス語または他の14言語で話すことができます。
- アーキテクチャ: スピーカーコンディショニングを持つGPTベースのTTS。韻律モデリングのためのビジョントランスフォーマー。
- ボイスクローニング: 6秒の参照音声で説得力のあるボイスクローンに十分です。3秒でも合格点の品質が得られます。
- 多言語クローニング: 1つの言語で音声をクローンし、同じ声の特性で17の異なる言語で音声を生成。
- 言語(17): 英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、トルコ語、ロシア語、オランダ語、チェコ語、アラビア語、中国語(zh-cn)、日本語、ハンガリー語、韓国語、ヒンディー語。韓国語とヒンディー語はXTTS v2.0.3で追加されました。
- 「XTTS v2の音声」: 名前付きの音声の固定カタログはありません。XTTS v2はクローニングモデルです — 6秒の参照クリップを与えると、その話者を再現します。リポジトリには手早くテストするための組み込み話者プリセットがいくつか同梱されていますが、想定される使い方は独自の
speaker_wavを与えることです。 - VRAM: モデル重みは~2 GB。実用上の最低は4 GB VRAM;リアルタイム推論には4〜6 GB推奨。CPUでも動作しますが約5〜10倍遅くなります。
- 速度: 遅い — RTX 4070で約2倍のリアルタイム速度で生成。リアルタイム音声アシスタントパイプラインには不向き。
- Apple Silicon: M5 Pro(CPU、Metalアクセラレーションなし)で約3倍のリアルタイム速度。バッチ音声生成には使用可能、リアルタイム音声アシスタント出力には不向き。
- ライセンス: CPML(Coqui Public Model License) — 非商用。CPMLはモデルおよびその音声出力の個人・研究・趣味利用を許可しますが、別途の商用契約なしでの商用利用(有料製品、SaaS、広告付きコンテンツ、クライアント業務など)を禁止しています。Coqui社は2024年1月に閉鎖したため、現在XTTS v2の商用ライセンスを販売している主体は存在しません — 実務上はXTTS v2を非商用専用として扱ってください。
COQUI_TOS_AGREED環境変数についてはCPMLの非対話的承諾セクションを参照してください。
from TTS.api import TTS
# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
text="Bonjour, je suis votre assistant vocal.",
speaker_wav="reference_voice.wav", # 6+ seconds of the target speaker
language="fr", # Output in French using the cloned voice
file_path="output.wav"
)⚠️Warning: XTTS v2はCPML(非商用)ライセンスの対象です。商用利用 — 製品、SaaS、サービス、有料のクライアント業務 — には別途の商用契約が必要であり、Coqui社が2024年1月に閉鎖して以降、そのような契約は現在購入できません。商用のボイスクローニングが必要な場合は、Tortoise(Apache 2.0)またはVITSバックエンドのCoqui TTSツールキット(MPL 2.0)を使用してください。これは事実に基づく参考情報であり、法的助言ではありません — デプロイ前にCPMLをご自身で確認してください。
Bark — 音声を超えた生成的オーディオ
Bark(Suno AI製)は、テキストプロンプトから音声、音楽、笑い声、咳、ため息、環境音を生成する生成型テキスト-オーディオモデルです。 従来のTTSエンジンではなく、テキストプロンプトをオーディオ生成の指示として解釈する生成モデルです。
- ユニークな機能: テキストに`[laughs]
、[sighs]、[clears throat]、[music]、または[sound effect: wind]`を含めると、Barkは音声と共にそれらのサウンドを生成します。 - 従来のTTSとは異なる制御性: 同じ入力でも実行ごとに出力が異なります。品質は一貫していません — 優れた出力もあれば、アーティファクトや不明瞭なセグメントがある出力もあります。
- 速度: 遅い — RTX 4090でさえリアルタイムより2〜4倍遅い。インタラクティブアプリケーションには不向き。
- Apple Silicon: M5 Pro(CPU、MPS部分的)で約1.5倍のリアルタイム速度。MPS(Metal Performance Shaders)サポートは部分的 — ほとんどの推論は依然としてCPUにフォールバック。
- 最適用途: クリエイティブオーディオ、効果音付きポッドキャスト制作、インタラクティブフィクション、実験的音声アプリケーション。
- VRAM: 4〜8 GB GPU。CPUでは品質が大幅に低下します。
- インストール:
pip install suno-bark。モデルは初回実行時にダウンロード(約2 GB)。 - ライセンス: MIT — 完全に商用可。
- 制限: 信頼性の高いボイスクローニングなし。Barkに付属する「音声プリセット」は概算的なもの — 真のボイスクローニングシステムではありません。
StyleTTS 2 — 最高の自然な品質
StyleTTS 2はLJSpeechベンチマークで人間に近いMOS(平均意見スコア)を達成する拡散ベースのTTSモデルです。 拡散を使ったスタイル転送により音声を生成 — VITSベースのモデルよりも自然で表現豊かな音声を生成します。
- アーキテクチャ: 拡散ベースのスタイル転送。テキストを音声に決定論的にマッピングするのではなく、スピーキングスタイルの学習した分布からサンプリング。
- 品質: LJSpeechベンチマークにおけるすべてのオープンソース英語TTSエンジンの中で最高のMOSスコア。
- 最適用途: オーディオブックのナレーション、プロフェッショナルな音声、ポッドキャスト制作。
- インストール: GitHubリポジトリをクローン、要件をインストール(
pip install -r requirements.txt)、モデルチェックポイントをダウンロード(約500 MB)。 - 言語サポート: 主に英語。非英語での使用は推奨しません。
- ボイスクローニング: サポートなし。StyleTTS 2はトレーニング済みスピーカーボイスのみで生成。
- VRAM: 2〜4 GB GPU。RTX 4070で約5〜8倍のリアルタイム速度でXTTS v2より高速。
- Apple Silicon: M5 Pro(CPU)で約6倍のリアルタイム速度。Metalアクセラレーションなし。
- ライセンス: MIT — 完全に商用可。
F5-TTS — ゼロショットボイスクローニング、完全オープン
F5-TTSはゼロショットボイスクローニングを持つフローマッチングベースのTTSモデルです — ファインチューニングなしで約3秒の参照音声からあらゆる音声をクローンできます。
- アーキテクチャ: XTTS v2が使用するGPTベースのアーキテクチャではなく、フローマッチング(拡散のバリアントアプローチ)を採用。通常、競争力のある品質でより高速な推論を提供。
- ボイスクローニング: 約3秒の参照音声で十分。ファインチューニング不要。
- 品質: 英語でXTTS v2と競争力あり。コミュニティ評価でMOSスコア約4.1。
- 速度: RTX 4070で約3〜5倍のリアルタイム速度 — XTTS v2より高速。
- 言語: 英語と中国語の強力なサポート、他言語への拡大中。
- Apple Silicon: M5 Pro(CPU)で約2倍のリアルタイム速度。現在Metalアクセラレーションなし。
- VRAM: 3〜5 GB GPU推奨。
- インストール:
pip install f5-ttsまたはGitHubからクローン。 - ライセンス: CC-BY-NC-4.0 — 非商用利用のみ。商用利用には別途契約が必要。
ライセンスと商用利用 — このTTSエンジンを商用利用できるか?
ライセンスは本番利用において最も重要な要素であり、これらのエンジンを明確に2つのグループに分けます。寛容なライセンス(MIT、Apache 2.0)のエンジンは商用製品に自由に組み込めます。制限付きのエンジン(CPML、CC-BY-NC-4.0)は非商用であり、有料製品、SaaS、広告付きコンテンツ、クライアント業務で使うには別途の契約が必要です。下の表は各エンジンの正確なライセンスと「商用利用できるか?」への直接的な回答を示します。
📍 一文で説明
商用製品でのローカルTTSには、Piper、Bark、StyleTTS 2(MIT)、KokoroとTortoise(Apache 2.0)、およびVITS/Tacotron2バックエンドのCoqui TTSツールキット(MPL 2.0)がいずれも許可されます;XTTS v2(CPML)とF5-TTS(CC-BY-NC-4.0)は非商用です。
💬 簡潔に説明
最も人気のある2つのボイスクローニングモデル — XTTS v2とF5-TTS — は別途のライセンスなしに商用利用できません。商用のボイスクローニングには、Tortoise(Apache 2.0)またはVITSバックエンドのCoquiツールキット(MPL 2.0)が安全な選択です。
| ツール | ライセンス | 商用利用可? | 主な条件 |
|---|---|---|---|
| Piper | MIT | はい — 制限なし | MIT表示を含める;音声ごとのモデルライセンスを確認 |
| Kokoro | Apache 2.0 | はい — 制限なし | Apache 2.0表示を含める |
| Coqui TTS(ツールキット) | MPL 2.0 | はい — 条件あり | ツールキットファイルへの変更のソースを開示 |
| XTTS v2(モデル) | CPML | いいえ — 非商用 | 商用には契約が必要;Coqui閉鎖(2024年1月)以降は販売なし |
| F5-TTS | CC-BY-NC-4.0 | いいえ — 非商用 | NCはファインチューン版にも引き継がれる(Emilia訓練データ) |
| Bark | MIT | はい — 制限なし | MIT著作権表示を含める |
| StyleTTS 2 | MIT | はい — 制限なし | MIT著作権表示を含める |
| Tortoise | Apache 2.0 | はい — 制限なし | 帰属表示;クローンする音声について同意を得る |
📌Note: Coqui TTS(ツールキット、MPL 2.0)とXTTS v2(特定のモデル重み、CPML)はライセンスが異なります。商用製品でCoqui TTSツールキットをVITSまたはTacotron2バックエンドでMPL 2.0の下で出荷できます。CPMLの非商用制限はXTTS v2のモデル重みとその音声出力に特定して適用され、ツールキットのコードには適用されません。
⚠️Warning: これは事実に基づく参考情報であり、法的助言ではありません。ライセンスは変更されることがあり、エッジケース(音声の同意、データセット条項、音声ごとのモデルライセンス)が問題になります。商用デプロイでこれらの条項に依拠する前に、各エンジンのライセンスファイルをご自身で読み、弁護士に相談してください。
CPMLを非対話的に承諾する(COQUI_TOS_AGREED)
CPMLの対象となるXTTS / Coquiモデルを初めて読み込むとき、ライブラリはライセンス条項を表示し、承諾のために「y」の入力を待ちます。この対話的なプロンプトはDockerビルド、CIパイプライン、ヘッドレスサーバーでハングします。CPMLを非対話的に承諾するには、環境変数COQUI_TOS_AGREEDを1に設定します — これはモデルが読み込まれる前に、Coqui Public Model Licenseを読んで同意したことを記録します。ライセンスそのものは変わりません:CPMLは依然として非商用であり、この変数を設定することはその条項への同意であって、放棄ではありません。
📍 一文で説明
環境変数COQUI_TOS_AGREED=1を設定すると、Docker、CI、その他あらゆるヘッドレス環境で対話的なプロンプトなしにCoqui Public Model License(CPML)を承諾できます。
💬 簡潔に説明
シェルやDockerfileではexport COQUI_TOS_AGREED=1を使い、Pythonではモデルをインポート・読み込みする前に`os.environ["COQUI_TOS_AGREED"] = "1"`を設定します。いずれの場合もキーボード入力を待たずにモデルが読み込まれます。
- シェル / CI: スクリプトを実行する前に
export COQUI_TOS_AGREED=1。 - Docker: Dockerfileに
ENV COQUI_TOS_AGREED=1を追加するか、docker runに-e COQUI_TOS_AGREED=1を渡す。 - Python(モデル読み込み前に設定): `import os; os.environ["COQUI_TOS_AGREED"] = "1"
—TTS(...)`がXTTSモデルをインスタンス化する前に実行する必要があります。 - 何をするか: CPMLの非対話的な承諾を記録し、モデル読み込みが
y/nプロンプトでブロックされないようにします。商用ライセンスではなく、非商用制限を取り除くものでもありません。
# 1) シェル / CI — セッションに対して一度CPMLを承諾する
export COQUI_TOS_AGREED=1
# 2) Dockerfile — 承諾をイメージに焼き込む
# ENV COQUI_TOS_AGREED=1
# 3) Python — モデル作成前に設定する
import os
os.environ["COQUI_TOS_AGREED"] = "1" # 下記の TTS() 呼び出しより前に設定する必要がある
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# これでモデルは対話的なライセンスプロンプトなしに読み込まれる⚠️Warning: COQUI_TOS_AGREED=1は対話的なプロンプトを抑制するだけです — これはCPMLへのあなたの承諾であり、CPMLは依然として非商用ライセンスです。XTTS v2に商用権を付与するものではありません。
ローカルTTSとElevenLabsおよびクラウドTTSの比較
ElevenLabs、Google Text-to-Speech、Azure Speechは2026年においてTTSの品質上限のままです。
- 品質上限: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper。
- レイテンシ: ローカルPiper(初回音声30〜50 ms)はElevenLabs APIの往復(300〜500 ms)より高速。
- コスト: ElevenLabsは月5〜99ドルのティア制。ローカルTTSは一度のハードウェア購入後0ドル。
- ボイスクローニング: ElevenLabs Instant Voice Clone ≈ XTTS v2品質。ElevenLabs Professional Voice Cloneはすべてのローカルエンジンを超える。
- プライバシー: ローカルTTS = 音声データはどこにも送信されない。ElevenLabs = 音声がそのサーバーで処理される。
- オフライン機能: ローカル = 完全オフライン。ElevenLabs = インターネットが必要。
- クラウドを使うべき場合: プロフェッショナルな音声制作、最高品質が求められるユーザー向け製品。
- ローカルを使うべき場合: プライバシー重視の音声、組み込みデバイス、コスト重視のバッチ処理、オフライン環境。
選び方
要件から適切なTTSエンジンへの意思決定フロー:
📍 一文で説明
ボイスクローニングが必要? → XTTS v2(最高品質)またはF5-TTS(高速、新アーキテクチャ)またはCoqui TTS(オープンライセンス)。CPU速度が必要? → Piper。創作オーディオが必要? → Bark。最高の英語品質が必要? → StyleTTS 2。
💬 簡潔に説明
ボイスクローニング:品質ならXTTS v2、速度ならF5-TTS、寛容なライセンスならCoqui VITS。CPU/Raspberry Pi:Piperのみ。ポッドキャスト効果音:Bark。英語オーディオブック:StyleTTS 2。
- ボイスクローニングが必要? → XTTS v2(最高品質、CPML)またはF5-TTS(新アーキテクチャ、高速、CC-BY-NC-4.0)またはCoqui VITS(良い品質、MPL 2.0)。クローニング不要:Piper(速度)またはStyleTTS 2(品質)。
- CPUのみ / Raspberry Piが必要? → Piperのみ。Kokoroはより高品質なCPU代替(Apache 2.0)。他のすべてのエンジンはGPUが必要。
- 非音声サウンドを含む創作オーディオが必要? → Bark。他のローカルエンジンは笑い声、ため息、音楽をネイティブに生成できない。
- 最高の英語ナレーション品質が必要? → StyleTTS 2。
- 多言語サポートが必要? → XTTS v2(17言語)、Coqui(20+)、Piper(20+パック)。
- 完全に商用可能なMITライセンスが必要? → Piper、Bark、またはStyleTTS 2。
- 音声アシスタントパイプラインを構築? → 低レイテンシTTS出力にPiper。
よくある質問
XTTS v2でボイスクローニングに必要な参照オーディオの量は?
XTTS v2は最低3秒のクリーンな参照オーディオを必要とします。6+秒でより良い結果が得られます。オーディオは単一の話者で、背景ノイズと音楽がなくなければなりません。高品質のソース素材は圧縮されたオーディオより良いクローンを生成します。
Piper TTSを商用製品で使用できますか?
はい。PiperはMITライセンスの下でライセンスされており、無制限の商用利用が可能です。製品にMITライセンス通知を含める必要があります。ボイスモデル(ONNXファイル)は音声ごとに個別のライセンスを持つ可能性があります。
どのローカルTTSエンジンが最高の多言語サポートを持っていますか?
XTTS v2は17言語で多言語ボイスクローニング対応しています — すべてのローカルエンジンの中で最も印象的な多言語機能です。Coqui TTSは20+言語モデルですが、多言語クローニングはありません。Piperは高速CPU推論のために20+言語ボイスパックを持っています。
どのローカルTTSエンジンが最も人間らしく聞こえますか?
英語ナレーションではStyleTTS 2 — すべてのオープンソース英語TTSエンジンの最高MOS(~4.3 vs 人間参照 ~4.5)を達成します。XTTS v2とF5-TTSはクローンボイスの自然さで競争力があります(~4.1)。
XTTS v2を商用利用できますか?
いいえ、別途の商用契約なしには利用できません。XTTS v2はCoqui Public Model License(CPML)の下で公開されており、CPMLはモデルとその音声出力の個人・研究・趣味利用を許可しますが、商用利用 — 有料製品、SaaS、広告付きコンテンツ、クライアント業務 — を禁止しています。Coqui社は2024年1月に閉鎖したため、現在XTTS v2の商用ライセンスを販売している主体は存在しません。実務上はXTTS v2を非商用専用として扱ってください。商用のボイスクローニングにはTortoise(Apache 2.0)またはVITSバックエンドのCoqui TTSツールキット(MPL 2.0)を使用してください。これは事実に基づく参考情報であり、法的助言ではありません — デプロイ前にCPMLをご自身で確認してください。
Coqui CPMLライセンスを非対話的に承諾するには(Docker / CI)?
環境変数COQUI_TOS_AGREEDを1に設定します。Coqui/XTTSライブラリは通常CPMLを表示して「y」の入力を待ちますが、これはDockerビルド、CI、ヘッドレスサーバーでハングします。COQUI_TOS_AGREED=1を設定すると承諾が記録され、プロンプトなしにモデルが読み込まれます。シェルやCIステップではexport COQUI_TOS_AGREED=1、DockerfileではENV COQUI_TOS_AGREED=1、PythonではTTS()呼び出しの前に`os.environ["COQUI_TOS_AGREED"] = "1"`を使います。これはプロンプトを抑制するだけ — CPMLへの同意であり、商用権を付与するものではありません。
XTTS v2はいくつの音声と言語をサポートしていますか?
XTTS v2には名前付きの音声の固定カタログはありません — クローニングモデルであるため、6秒の参照クリップを与えるとその話者を再現します(リポジトリには手早くテストするための組み込み話者プリセットもいくつか同梱されています)。17言語で音声を生成します:英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、トルコ語、ロシア語、オランダ語、チェコ語、アラビア語、中国語(zh-cn)、日本語、ハンガリー語、韓国語、ヒンディー語。クローニングは多言語対応です:一度音声をクローンすれば、17言語のいずれでも生成できます。
Kokoro vs Piper — どちらの軽量CPU向けTTSを使うべきですか?
両方ともGPUなしのCPUで高速に動作し、いずれも寛容なライセンス(PiperはMIT、KokoroはApache 2.0)なので、どちらも商用利用に安全です。最低のレイテンシと最も広い言語カバレッジ(20+言語のボイスパック、Raspberry Pi 5でリアルタイム)が必要なときはPiperを選んでください — 組み込みやスマートホーム音声の標準です。Piperより高い自然さを求め、わずかに多い計算負荷を許容できるときはKokoro(StyleTTS 2アーキテクチャ上に構築された8200万パラメータのモデル)を選んでください;その英語品質はより重いGPUエンジンに近いです。Raspberry Piや常時稼働のアシスタントにはPiper、ミリ秒よりも品質が重要なデスクトップ/サーバーの読み上げにはKokoroです。
ソース
- Piper TTS on GitHub — ソースコード、ボイスパック、ONNXモデルダウンロード、Raspberry Pi セットアップガイド。
- Coqui TTS on GitHub — ソースコード、モデルリスト、ボイスクローニングドキュメント、Python API リファレンス。
- XTTS v2 ドキュメント — XTTS v2 モデルカード、ライセンス(CPML)、ボイスクローニング API。
- F5-TTS on GitHub — フローマッチング TTS、ゼロショットボイスクローニング、インストールガイド、多言語サポート。
- Tortoise TTS on GitHub — ボイスクローニング対応の高品質マルチボイスTTS、Apache 2.0ライセンス。非常に遅いが商用フレンドリー。
- XTTS-v2 LICENSE.txt(CPML)on Hugging Face — XTTS v2を規定するCoqui Public Model Licenseの全文。
日本語TTS完全ガイド:VOICEVOX・Style-Bert-VITS2・XTTS v2
VOICEVOXは日本語TTS界のデファクトスタンダードです。完全無料・商用利用可・完全オフライン動作という三拍子が揃い、個人クリエイターからゲームスタジオまで幅広く採用されています。Piper TTS(英語中心)やCoqui XTTS v2(多言語)とは異なるエコシステムを形成しています。
日本語音声合成特有の課題は読み仮名処理(漢字→ひらがな変換)です。VOICEVOX、Style-Bert-VITS2などの日本語特化TTSはこれを内部処理しますが、XTTS v2では日本語テキストに対して事前のフリガナ付与(pyopenjtalk等)が推奨されます。
- VOICEVOX(推奨): 完全無料・オフライン・商用可。四国めたん、ずんだもん等の個性的なキャラクター音声が特徴。Windows/Mac/Linux対応。APIモードで他アプリと連携可能。音声クローニング非対応だが日本語品質は最高水準。
- Style-Bert-VITS2: VOICEVOXより自然な感情表現が可能な上位互換TTS。訓練データがあれば任意話者のクローニングも可能。GPU推奨(CUDA)だがCPUでも動作。日本語アニメ・ゲーム用途で特に人気。
- XTTS v2の日本語対応: 多言語クローニングが強み。日本語テキストには事前処理が必要:
pip install pyopenjtalkでフリガナ変換を追加すると品質が大幅改善。サンプル音声30秒あれば任意の話者に近似可能。 - 個人情報保護とプライバシー: 声紋データは生体情報に相当。個人情報保護法(PIPA)の2022年改正により、クラウドTTSサービスへの音声送信には利用者同意が必要。ローカルTTSはこの問題を根本的に回避。
- コミュニティリソース: VOICEVOX公式サイト(voicevox.hiroshiba.jp)、Style-Bert-VITS2(GitHub)、日本語TTSの最新動向はZenn「#TTS」タグ、Qiita「音声合成」タグで追跡可能。