关键要点
- Piper是速度和嵌入式应用的最佳选择。 完全在CPU上运行,在Raspberry Pi 5上生成实时语音,通过可下载的语音包支持20+种语言。无GPU、无Python复杂性、MIT许可证。
- XTTS v2是2026年本地声音克隆的最佳选择 — 但它是非商用的。 输入6秒参考音频,它就能在17种语言中克隆声音(4–6 GB GPU VRAM)。CPML许可证为非商用,且自Coqui于2024年1月关闭后已无商业许可证可售 — 请将XTTS v2视为仅限非商用。在Docker/CI中用
COQUI_TOS_AGREED=1非交互式接受CPML。 - F5-TTS是零样本声音克隆领域快速增长的替代方案。 它采用流匹配架构而非GPT,从~3秒参考音频克隆声音,实现与XTTS v2相当的质量但推理速度更快。许可证:CC-BY-NC-4.0(仅非商业)。
- Coqui TTS是最灵活的开源TTS工具包。 它支持多个后端(Tacotron2、VITS、XTTS)、声音克隆和20+种语言,采用MPL 2.0许可证。注:Coqui公司于2024年1月关闭;该项目现由社区维护。
- Bark是唯一生成非语音音频的本地TTS。 它可以在语音旁边生成笑声、咳嗽、叹气、音乐片段和环境声——适用于创意音频、播客制作和交互式小说。
- StyleTTS 2达到所有开源英文TTS引擎中最高的MOS(平均意见得分)。 其基于扩散的风格转移为英文叙述产生接近人类的自然效果。仅支持英文,无声音克隆。
- 许可证决定商业使用 — 且界限清晰。 可免费商用:Piper、Bark、StyleTTS 2(MIT)以及Kokoro、Tortoise(Apache 2.0)。商用有条件:Coqui TTS工具包(MPL 2.0,须披露对工具包的修改)。仅限非商用:XTTS v2(CPML)和F5-TTS(CC-BY-NC-4.0) — 两者均需单独协议。商业声音克隆请用Tortoise(Apache 2.0)或基于VITS后端的Coqui工具包(MPL 2.0)。本文为事实参考,非法律意见。
- 都无法与大规模商业TTS质量相媲美。 ElevenLabs、Google Text-to-Speech和Azure Speech在一致性、自然度和延迟方面仍然超过所有本地引擎。当隐私、成本或离线操作比绝对质量更重要时,本地TTS是正确选择。
快速概览
- 最快的本地TTS: Piper — 在Raspberry Pi 5上实时运行,在现代桌面CPU上约为实时速度的10倍。
- 最佳声音克隆质量: XTTS v2 — 6秒参考音频,支持17种语言的跨语言克隆。
- 最快的零样本声音克隆(新架构): F5-TTS — 约3秒音频,流匹配,在RTX 4070上约为实时速度的3〜5倍。
- 最灵活的开源工具包: Coqui TTS — 支持VITS、Tacotron2、XTTS后端,20+语言模型。
- 唯一的生成式音频(非语音声音): Bark — 笑声、叹气、音乐、环境声。所有引擎中最慢。
- 最佳英语朗读质量: StyleTTS 2 — 基于扩散的风格转移,在LJSpeech基准测试中接近人类MOS。
- 可免费商用: Piper、Bark、StyleTTS 2(MIT);Kokoro、Tortoise(Apache 2.0);Coqui TTS工具包(MPL 2.0,有条件)。非商用: XTTS v2(CPML)、F5-TTS(CC-BY-NC-4.0)。
- XTTS v2的声音与语言: 无固定声音列表 — 你提供一段6秒参考音频,它便克隆该声音。模型附带内置说话人预设,并能生成17种语言:en、es、fr、de、it、pt、pl、tr、ru、nl、cs、ar、zh-cn、ja、hu、ko、hi。
- XTTS v2 VRAM: 模型权重约2 GB;运行最低4 GB,实时推理推荐4–6 GB。
- 在CI/Docker中接受CPML:
export COQUI_TOS_AGREED=1— 无需交互式提示。 - VRAM要求: Piper:仅CPU。Kokoro:CPU / 1〜2 GB。StyleTTS 2:2〜4 GB。Coqui VITS:2〜4 GB。F5-TTS:3〜5 GB。XTTS v2:4〜6 GB。Bark:4〜8 GB。Tortoise:4〜8 GB。
为什么本地TTS很重要
云端TTS服务(ElevenLabs、Google TTS、Amazon Polly、Azure Speech)使用方便,但存在按字符计费、音频数据保留策略以及网络往返延迟等问题。本地TTS消除了所有这三个问题。
- 隐私: 您的文本内容永远不会离开您的设备。对医疗口述、法律摘要、私人日记朗读或机密文件读取至关重要。
- 成本: 云端TTS定价通常为每百万字符4〜30美元。每月生成1000万字符的开发者通过一次性本地部署每月可节省40〜300美元。
- 延迟: 无网络往返。Piper在CPU上50ms内生成第一个音频令牌 — 比任何云端TTS往返都快。
- 自定义: 声音克隆(XTTS v2、F5-TTS、Coqui)允许您从几秒钟的音频创建自定义声音。云提供商每个克隆声音收取10美元以上/月。
- 离线操作: 在飞机上、安全设施中、没有互联网的偏远地区均可工作。适用于信息亭和设备的嵌入式语音界面。
- 智能家居: Piper是常驻本地语音界面的主流TTS层,在Raspberry Pi上实时运行,无需GPU。要了解集成到Home Assistant的完整离线语音助手,请参阅智能家居本地语音助手 →。
对比表
所有本地TTS引擎按照生产部署最重要的指标进行比较。
📍 简单一句话
Piper在CPU上最快;XTTS v2提供最佳声音克隆质量;F5-TTS通过更新的架构提供零样本克隆;Bark是唯一能产生笑声和音乐的引擎;StyleTTS 2具有最佳的英语朗读自然度。
💬 简单来说
对于大多数离线TTS需求:速度和简洁性选Piper,宽松许可证的声音克隆选Coqui,有GPU的最佳克隆质量选XTTS v2,更快零样本克隆的新架构选F5-TTS。
| 工具 | 质量 | 速度 | 声音克隆 | 多语言 | VRAM | 许可证 | MOS(英语) |
|---|---|---|---|---|---|---|---|
| Piper | 良好 | 非常快(CPU) | 否 | 是(20+语言) | 仅CPU | MIT | ~3.5 |
| Kokoro | 很好 | 快(CPU) | 否 | 英语 + 扩展中 | CPU / 1〜2 GB | Apache 2.0 | ~4.0 |
| Coqui TTS | 很好 | 中等 | 是 | 是(20+语言) | 2〜4 GB | MPL 2.0 | ~3.8 |
| XTTS v2 | 优秀 | 慢 | 是(最佳) | 是(17种语言) | 4〜6 GB | CPML(非商用) | ~4.1 |
| F5-TTS | 优秀 | 中快 | 是(零样本) | 是(多语言) | 3〜5 GB | CC-BY-NC-4.0 | ~4.1 |
| Bark | 独特 / 可变 | 慢 | 有限 | 是(多语言) | 4〜8 GB | MIT | ~3.2〜4.0(可变) |
| StyleTTS 2 | 优秀(英语) | 中等 | 否 | 主要英语 | 2〜4 GB | MIT | ~4.3 |
| Tortoise | 优秀 | 非常慢(每句数分钟) | 是 | 主要英语 | 4〜8 GB | Apache 2.0 | ~4.2 |
MOS(平均意见得分)在1〜5的量表上,5表示与人类语音无法区分。分数是近似值,基于已发布的基准测试或社区评估。MOS因测试句子和听众群体而有显著差异。人类参考MOS:约4.5。
首次音频延迟比较
首次音频延迟是从文本输入到第一个可听输出的时间。对于语音助手和交互式应用程序至关重要。对于批处理(有声书、播客制作),总吞吐量比首次音频延迟更重要。
| 引擎 | 首次音频(RTX 4070) | 首次音频(CPU) | 首次音频(M5 Pro) |
|---|---|---|---|
| Piper | ~30 ms | ~50 ms | ~40 ms |
| Kokoro | ~50 ms | ~80 ms | ~60 ms |
| Coqui VITS | ~100 ms | ~300 ms | ~150 ms |
| StyleTTS 2 | ~150 ms | ~500 ms | ~200 ms |
| F5-TTS | ~200 ms | ~800 ms | ~300 ms |
| XTTS v2 | ~300 ms | ~1500 ms | ~500 ms |
| Bark | ~500 ms | ~3000 ms | ~800 ms |
Piper TTS — 最快的轻量级选项
Piper是由Rhasspy为家庭自动化和嵌入式应用开发的快速本地TTS系统。 它使用基于VITS的神经架构,通过onnxruntime后端在语音数据集上训练 — 经过优化,可在Raspberry Pi 4或5上无需GPU实时运行。
- 架构: 带有ONNX推理的VITS神经TTS。专为单板计算机和嵌入式Linux设计。
- 安装:
pip install piper-tts。预训练语音包可在Hugging Face的Piper voices存储库获取。 - 使用:
echo "你好,世界" | piper --model zh_CN-huayan-medium.onnx --output_file output.wav - 语音包: 20+种语言,每种语言多个语音选项。每个语音包是20〜200 MB的ONNX模型文件。
- 速度: 在现代桌面CPU上约为实时速度的10倍。在Raspberry Pi 5上实时运行。首次音频延迟低于50ms。
- Apple Silicon: 在M5 Pro(CPU,ARM NEON)上约为实时速度的15倍。无需GPU原生运行 — 在Mac上性能出色。
- 收听示例: Piper语音示例
- 最适合: 家庭助手、信息亭设备、嵌入式语音界面、无GPU可用时注重隐私的朗读场景。
- 限制: 无声音克隆。质量"良好" — 听起来自然,但与XTTS v2或StyleTTS 2相比明显是合成音。
- 许可证: MIT — 完全商业化,无限制。
- Kokoro TTS — Piper的替代品: Kokoro TTS是轻量级类别中Piper的新兴替代品。它在CPU上保持快速的同时实现比Piper更高的自然度。采用Apache 2.0许可证。如果Piper的质量不能满足您的需求,但您无法负担GPU VRAM,Kokoro值得测试。
Coqui TTS — 最佳开源全能工具包
Coqui TTS是一个支持多种模型架构和声音克隆的Python文字转语音工具包。 由Coqui公司开发(2024年1月已停止运营),现由开源社区维护。该工具包支持Tacotron2、VITS和XTTS后端。
- 安装:
pip install TTS。模型在首次使用时自动下载。 - 声音克隆: 提供6秒以上的参考音频。
tts --text "你好" --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --speaker_wav sample.wav --out_path output.wav - 后端选项: VITS(最快,质量良好)、Tacotron2(较旧,较慢)、XTTS(最佳质量,参见XTTS v2部分)。
- 语言: 通过
tts --list_models可获取20+语言模型。 - VRAM: VITS后端2〜4 GB;XTTS后端4〜6 GB。
- Apple Silicon: 在M5 Pro(CPU)上约为实时速度的8倍。无Metal GPU加速。可用于批量生成。
- 社区状态: Coqui公司于2024年1月关闭。开源仓库(
coqui-ai/TTS)由社区维护。无活跃商业支持。 - 许可证: MPL 2.0 — 允许商业使用,但必须披露修改的源代码。
- 最适合: 希望使用开源工具包和宽松许可证进行声音克隆的开发者。
XTTS v2 — 最佳声音克隆质量
XTTS v2(由Coqui开发)是2026年本地可用的最高质量声音克隆引擎。 它使用具有跨语言迁移的GPT架构 — 用英语克隆一个声音,并用同样的6秒音频以西班牙语、德语、法语或其他14种语言说话。
- 架构: 带有说话人条件的GPT TTS。用于韵律建模的视觉变换器。
- 声音克隆: 6秒参考音频即可产生令人信服的声音克隆。3秒可产生可接受的质量。
- 跨语言克隆: 用一种语言克隆声音,用相同的声音特征生成17种不同语言的语音。
- 语言(17种): 英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文(zh-cn)、日语、匈牙利语、韩语和印地语。韩语和印地语在XTTS v2.0.3中加入。
- 「XTTS v2的声音」: 没有固定的命名声音目录。XTTS v2是克隆模型 — 你提供一段6秒参考音频,它便复现该说话人。仓库附带少量内置说话人预设供快速测试,但预期的工作流是提供你自己的
speaker_wav。 - VRAM: 模型权重约2 GB。实际最低4 GB VRAM;实时推理推荐4〜6 GB。可在CPU上运行但约慢5〜10倍。
- 速度: 慢 — 在RTX 4070上约以实时速度的2倍生成。不适合实时语音助手管道。
- Apple Silicon: 在M5 Pro(CPU,无Metal加速)上约为实时速度的3倍。可用于批量音频生成,不适合实时语音助手输出。
- 收听示例: Hugging Face上的XTTS v2演示
- 许可证: CPML(Coqui Public Model License) — 非商用。CPML允许对模型及其音频输出进行个人、研究和爱好用途,但未经单独的商业协议禁止商业使用(任何付费产品、SaaS、广告支持内容或客户工作)。Coqui Inc于2024年1月关闭,因此目前没有任何实体出售XTTS v2商业许可证 — 实际上请将XTTS v2视为仅限非商用。
COQUI_TOS_AGREED环境变量参见CPML非交互式接受章节。
from TTS.api import TTS
# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
text="Bonjour, je suis votre assistant vocal.",
speaker_wav="reference_voice.wav", # 6+ seconds of the target speaker
language="fr", # Output in French using the cloned voice
file_path="output.wav"
)⚠️Warning: XTTS v2受CPML(非商用)许可证约束。商业使用 — 产品、SaaS、服务或付费客户工作 — 需要单独的商业协议,而自Coqui Inc于2024年1月关闭后,目前已无此类协议可购买。如需商业声音克隆,请使用Tortoise(Apache 2.0)或基于VITS后端的Coqui TTS工具包(MPL 2.0)。本文为事实参考,非法律意见 — 部署前请自行阅读CPML。
Bark — 超越语音的生成式音频
Bark(由Suno AI开发)是一个生成式文字转音频模型,可从文本提示生成语音、音乐、笑声、咳嗽、叹息和环境声音。 它不是传统的TTS引擎 — 而是将文本提示解释为音频生成指令的生成模型。
- 独特功能: 在文本中加入`[laughs]
、[sighs]、[clears throat]、[music]或[sound effect: wind]`,Bark会在语音旁边生成这些声音。 - 不像传统TTS那样可控: 相同输入的输出在不同运行之间会有变化。质量不一致 — 有些输出出色,有些有噪音或难以理解的片段。
- 速度: 慢 — 即使在RTX 4090上也比实时速度慢2〜4倍。不适合交互式应用程序。
- Apple Silicon: 在M5 Pro(CPU,MPS部分)上约为实时速度的1.5倍。MPS(Metal Performance Shaders)支持不完整 — 大多数推理仍回退到CPU。
- 最适合: 创意音频、带音效的播客制作、互动小说、实验性语音应用程序。
- VRAM: 4〜8 GB GPU。在CPU上运行质量明显较低。
- 安装:
pip install suno-bark。模型在首次运行时下载(约2 GB)。 - 许可证: MIT — 完全商业化。
- 限制: 无可靠的声音克隆。Bark附带的"语音预设"是近似的 — 不是真正的声音克隆系统。
StyleTTS 2 — 最高自然质量
StyleTTS 2是一个基于扩散的TTS模型,在LJSpeech基准测试上达到接近人类的MOS(平均意见得分)。 它使用扩散进行说话风格迁移 — 生成比基于VITS的模型更自然、更富表现力的语音。
- 架构: 基于扩散的风格迁移。从学习到的说话风格分布中采样,而不是将文本确定性地映射到音频。
- 质量: 在LJSpeech基准测试中,所有开源英语TTS引擎中MOS分数最高。
- 最适合: 有声书朗读、专业配音、播客制作。
- 安装: 克隆GitHub仓库,安装要求(
pip install -r requirements.txt),下载模型检查点(约500 MB)。 - 语言支持: 主要是英语。不建议用于非英语场景。
- 声音克隆: 不支持。StyleTTS 2只使用训练的说话人声音生成。
- VRAM: 2〜4 GB GPU。在RTX 4070上约为实时速度的5〜8倍,比XTTS v2更快。
- Apple Silicon: 在M5 Pro(CPU)上约为实时速度的6倍。无Metal加速。
- 许可证: MIT — 完全商业化。
F5-TTS — 零样本声音克隆,完全开放
F5-TTS是一个具有零样本声音克隆的流匹配TTS模型 — 无需微调,从约3秒参考音频克隆任何声音。
- 架构: 流匹配(扩散变体方法),而非XTTS v2使用的GPT架构。通常以更快的推理速度实现具有竞争力的质量。
- 声音克隆: 约3秒参考音频即可。不需要微调。
- 质量: 在英语上与XTTS v2具有竞争力。社区评估中MOS分数约4.1。
- 速度: 在RTX 4070上约为实时速度的3〜5倍 — 比XTTS v2更快。
- 语言: 对英语和中文有强力支持,对其他语言的支持正在扩展。
- Apple Silicon: 在M5 Pro(CPU)上约为实时速度的2倍。目前无Metal加速。
- VRAM: 建议3〜5 GB GPU。
- 安装:
pip install f5-tts或从GitHub克隆。 - 许可证: CC-BY-NC-4.0 — 仅非商业使用。商业使用需要单独协议。
许可证与商业使用 — 我能商用这款TTS引擎吗?
许可证是生产使用中最重要的单一因素,它把这些引擎清晰地分成两类。宽松许可证的引擎(MIT、Apache 2.0)可以自由地装入商业产品发布。受限引擎(CPML、CC-BY-NC-4.0)为非商用 — 将其用于付费产品、SaaS、广告支持内容或客户工作需要单独的协议。下表给出每款引擎的确切许可证及直接的「我能商用吗?」答案。
📍 简单一句话
在商业产品中使用本地TTS:Piper、Bark、StyleTTS 2(MIT)、Kokoro和Tortoise(Apache 2.0),以及基于VITS/Tacotron2后端的Coqui TTS工具包(MPL 2.0)均被允许;XTTS v2(CPML)和F5-TTS(CC-BY-NC-4.0)为非商用。
💬 简单来说
两款最受欢迎的声音克隆模型 — XTTS v2和F5-TTS — 未经单独许可证不能商用。商业声音克隆请选择Tortoise(Apache 2.0)或基于VITS后端的Coqui工具包(MPL 2.0)。
| 工具 | 许可证 | 商业使用? | 主要条件 |
|---|---|---|---|
| Piper | MIT | 是 — 无限制 | 包含MIT声明;检查每个语音模型的许可证 |
| Kokoro | Apache 2.0 | 是 — 无限制 | 包含Apache 2.0声明 |
| Coqui TTS(工具包) | MPL 2.0 | 是 — 有条件 | 披露对工具包文件的任何修改的源代码 |
| XTTS v2(模型) | CPML | 否 — 非商用 | 商用需协议;自Coqui关闭(2024年1月)后无协议可售 |
| F5-TTS | CC-BY-NC-4.0 | 否 — 非商用 | 非商用限制延续至微调(Emilia训练数据) |
| Bark | MIT | 是 — 无限制 | 包含MIT版权声明 |
| StyleTTS 2 | MIT | 是 — 无限制 | 包含MIT版权声明 |
| Tortoise | Apache 2.0 | 是 — 无限制 | 署名;对任何克隆声音取得同意 |
📌Note: Coqui TTS(工具包,MPL 2.0)和XTTS v2(特定模型权重,CPML)的许可证不同。您可以在商业产品中使用基于VITS或Tacotron2后端的Coqui TTS工具包(MPL 2.0)。CPML非商用限制专门适用于XTTS v2模型权重及其音频输出 — 而非工具包代码。
⚠️Warning: 本文为事实参考,非法律意见。许可证会变更,边缘情形(声音同意、数据集条款、每个语音模型的许可证)也很重要。商业部署前请自行阅读每款引擎的许可证文件,并咨询律师。
非交互式接受CPML(COQUI_TOS_AGREED)
首次加载受CPML约束的XTTS / Coqui模型时,库会打印许可证条款并等待你输入「y」以接受。该交互式提示会在Docker构建、CI管道和无头服务器中卡住。要非交互式接受CPML,请将COQUI_TOS_AGREED环境变量设为1 — 这会记录你在模型加载前已阅读并同意Coqui Public Model License。它不会改变许可证:CPML仍为非商用,设置该变量是你对这些条款的同意,而非对它们的豁免。
📍 简单一句话
设置环境变量COQUI_TOS_AGREED=1,即可在Docker、CI或任何无头环境中无需交互式提示地接受Coqui Public Model License(CPML)。
💬 简单来说
在shell或Dockerfile中使用export COQUI_TOS_AGREED=1;在Python中于导入或加载模型前设置`os.environ["COQUI_TOS_AGREED"] = "1"`。两种方式都能让模型加载时无需等待键盘输入。
- Shell / CI: 运行脚本前执行
export COQUI_TOS_AGREED=1。 - Docker: 在Dockerfile中加入
ENV COQUI_TOS_AGREED=1,或向docker run传入-e COQUI_TOS_AGREED=1。 - Python(在模型加载前设置): `import os; os.environ["COQUI_TOS_AGREED"] = "1"
— 必须在TTS(...)`实例化XTTS模型之前运行。 - 它的作用: 记录对CPML的非交互式接受,使模型加载不会卡在
y/n提示上。它不是商业许可证,也不会移除非商用限制。
# 1) Shell / CI — accept the CPML once for the session
export COQUI_TOS_AGREED=1
# 2) Dockerfile — bake acceptance into the image
# ENV COQUI_TOS_AGREED=1
# 3) Python — set it before the model is created
import os
os.environ["COQUI_TOS_AGREED"] = "1" # must be set BEFORE the TTS() call below
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Model now loads without the interactive license prompt⚠️Warning: COQUI_TOS_AGREED=1仅抑制交互式提示 — 它是你对CPML的接受,而CPML仍为非商用许可证。它不会授予XTTS v2的商业权利。
本地TTS与ElevenLabs和云端TTS的比较
ElevenLabs、Google Text-to-Speech和Azure Speech在2026年仍是TTS的质量上限。
- 质量上限: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper。
- 延迟: 本地Piper(首次音频30〜50 ms)比任何ElevenLabs API往返(300〜500 ms)都快。
- 成本: ElevenLabs按套餐收费5〜99美元/月。本地TTS在一次性硬件后成本为0美元。
- 声音克隆: ElevenLabs Instant Voice Clone ≈ XTTS v2质量。ElevenLabs Professional Voice Clone超过任何本地引擎。
- 隐私: 本地TTS = 音频数据不发送到任何地方。ElevenLabs = 音频在其服务器上处理。
- 离线能力: 本地 = 完全离线。ElevenLabs = 需要互联网。
- 何时使用云端: 专业配音制作、需要最高质量的面向客户产品。
- 何时使用本地: 隐私敏感音频、嵌入式设备、成本敏感的批量处理、离线环境。
如何选择
从您的需求到正确TTS引擎的决策流程:
📍 简单一句话
需要声音克隆?→ XTTS v2(最佳质量)或F5-TTS(更快,新架构)或Coqui TTS(开放许可证)。需要CPU速度?→ Piper。需要创意音频?→ Bark。需要最佳英语质量?→ StyleTTS 2。
💬 简单来说
声音克隆:质量选XTTS v2,速度选F5-TTS,宽松许可证选Coqui VITS。CPU/Raspberry Pi:仅Piper。播客音效:Bark。英语有声书:StyleTTS 2。
- 需要声音克隆? → XTTS v2(最佳质量,CPML)或F5-TTS(新架构,更快,CC-BY-NC-4.0)或Coqui VITS(良好质量,MPL 2.0)。不需要克隆:Piper(速度)或StyleTTS 2(质量)。
- 需要仅CPU / Raspberry Pi? → 仅Piper。Kokoro是更高质量的CPU替代品(Apache 2.0)。所有其他引擎都需要GPU。
- 需要带有非语音声音的创意音频? → Bark。没有其他本地引擎能原生产生笑声、叹息或音乐。
- 需要最佳英语朗读质量? → StyleTTS 2。
- 需要多语言支持? → XTTS v2(17种语言),Coqui(20+),Piper(20+语音包)。
- 需要完全商业化的MIT许可证? → Piper、Bark或StyleTTS 2。
- 构建语音助手管道? → 使用Piper实现低延迟TTS输出。
常见问题
使用XTTS v2进行声音克隆需要多少参考音频?
XTTS v2需要至少3秒的干净参考音频,6+秒会得到明显更好的效果。音频必须是单个扬声器,背景噪声和音乐最少。高质量的源材料比压缩音频产生更好的克隆。
我可以在商业产品中使用Piper TTS吗?
可以。Piper在MIT许可证下授权,允许无限制的商业使用。您必须在产品中包含MIT许可证声明。语音模型(ONNX文件)可能具有单个语音的单独许可证。
哪个本地TTS引擎具有最佳的多语言支持?
XTTS v2支持17种语言的多语言声音克隆——所有本地引擎中最令人印象深刻的多语言功能。Coqui TTS拥有20+种语言模型但缺乏多语言克隆。Piper为快速CPU推理拥有20+种语言语音包。
哪个本地TTS引擎听起来最像人类?
英文叙述方面StyleTTS 2最佳——它达到所有开源英文TTS引擎的最高MOS分数(~4.3 对人类参考 ~4.5)。XTTS v2和F5-TTS在克隆语音自然度方面有竞争力(~4.1)。
我可以商用XTTS v2吗?
不可以,除非有单独的商业协议。XTTS v2在Coqui Public Model License(CPML)下发布,CPML允许对模型及其音频输出进行个人、研究和爱好用途,但禁止商业使用 — 任何付费产品、SaaS、广告支持内容或客户工作。Coqui Inc于2024年1月关闭,因此目前没有任何实体出售XTTS v2商业许可证;实际上请将XTTS v2视为仅限非商用。商业声音克隆请使用Tortoise(Apache 2.0)或基于VITS后端的Coqui TTS工具包(MPL 2.0)。本文为事实参考,非法律意见 — 部署前请自行阅读CPML。
如何非交互式地接受Coqui CPML许可证(Docker / CI)?
将环境变量COQUI_TOS_AGREED设为1。Coqui/XTTS库通常会打印CPML并等待你输入「y」,这会在Docker构建、CI和无头服务器中卡住。设置COQUI_TOS_AGREED=1会记录你的接受,使模型加载时无需提示。在shell或CI步骤中使用export COQUI_TOS_AGREED=1,在Dockerfile中使用ENV COQUI_TOS_AGREED=1,或在Python中于TTS()调用前使用`os.environ["COQUI_TOS_AGREED"] = "1"`。它仅抑制提示 — 它是你对CPML的同意,并不授予商业权利。
XTTS v2支持多少声音和语言?
XTTS v2没有固定的命名声音目录 — 它是克隆模型,你提供一段6秒参考音频,它便复现该说话人(仓库也附带少量内置说话人预设供快速测试)。它能生成17种语言的语音:英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文(zh-cn)、日语、匈牙利语、韩语和印地语。克隆是跨语言的:克隆一次声音即可用17种语言中的任意一种生成。
Kokoro与Piper — 该用哪款轻量级CPU TTS?
两者都在CPU上无需GPU快速运行,且都采用宽松许可证(Piper为MIT,Kokoro为Apache 2.0),因此都可安全商用。当你需要最低延迟和最广的语言覆盖(20+种语言语音包,在Raspberry Pi 5上实时)时选Piper — 它是嵌入式和智能家居语音的标准。当你想要比Piper更高的自然度、且能接受略多的算力时选Kokoro(一个基于StyleTTS 2架构构建的82M参数模型);其英语质量更接近较重的GPU引擎。Raspberry Pi或常驻助手用Piper;质量比毫秒更重要的桌面/服务器朗读用Kokoro。
参考资源
- Piper TTS on GitHub — 源代码、语音包、ONNX模型下载和Raspberry Pi设置指南。
- Coqui TTS on GitHub — 源代码、模型列表、声音克隆文档和Python API参考。
- XTTS v2文档 — XTTS v2模型卡、许可证(CPML)和声音克隆API。
- F5-TTS on GitHub — 流匹配TTS、零样本声音克隆、安装指南和多语言支持。
- Tortoise TTS on GitHub — 高质量多声音TTS与声音克隆,Apache 2.0许可证。非常慢但对商用友好。
- Hugging Face上的XTTS-v2 LICENSE.txt(CPML) — 管辖XTTS v2的Coqui Public Model License全文。
繁體中文TTS指南:台灣與香港的本地語音合成選擇
普通話(Mandarin)文字轉語音是XTTS v2最成熟的非英語能力之一。對於台灣和香港用戶,選擇支援繁體中文輸入的TTS引擎至關重要——大多數中文TTS預設以簡體字訓練,繁體字處理需要額外設定。
台灣本地有幾個值得關注的TTS項目:由成功大學、交通大學等機構開發的中文語音合成研究成果,以及部分開源的台語(Taiwanese Hokkien)TTS實驗項目,這些都是雲端TTS服務無法替代的本地資源。
- XTTS v2繁體中文設定: 語言代碼使用
zh-cn(XTTS v2目前不區分繁簡,但輸入繁體字可正確發音)。建議在提示詞中加入「請使用台灣國語腔調」以獲得更接近台灣口音的輸出。 - Coqui TTS中文模型: Coqui提供
tts_models/zh-CN/baker/tacotron2-DDC作為基礎中文TTS。Baker語料庫以女聲普通話為主,品質穩定但音色單一。適合需要穩定輸出的商業用途。 - 聲音克隆(Voice Cloning)注意事項: 台灣和香港均受個人資料保護法規管轄(台灣個資法、香港《個人資料(私隱)條例》)。使用他人聲音進行克隆需取得明確同意。用於教育、無障礙服務的自身聲音克隆不受此限制。
- 台語(Taiwanese)TTS現況: 目前無成熟的本地台語TTS方案。國立臺灣大學的TWNTTS研究項目持續進行中,但尚未有可直接部署的版本。普通話TTS是目前唯一實用選項。
- 硬體建議(台灣市場): MacBook M系列(M1/M2/M3/M4)是台灣開發者主流。XTTS v2在M2 Pro 16GB RAM上可實時執行,無需GPU外接卡。NVIDIA GPU用戶(RTX 3060以上)可使用CUDA加速版本。