关键要点
- Piper是速度和嵌入式应用的最佳选择。 完全在CPU上运行,在Raspberry Pi 5上生成实时语音,通过可下载的语音包支持20+种语言。无GPU、无Python复杂性、MIT许可证。
- XTTS v2是2026年本地声音克隆质量最佳的选择。 输入6秒参考音频,它就能在17种语言中克隆声音。需要4–6 GB GPU VRAM。CPML许可证限制商业使用。
- F5-TTS是零样本声音克隆领域快速增长的替代方案。 它采用流匹配架构而非GPT,从~3秒参考音频克隆声音,实现与XTTS v2相当的质量但推理速度更快。许可证:CC-BY-NC-4.0(仅非商业)。
- Coqui TTS是最灵活的开源TTS工具包。 它支持多个后端(Tacotron2、VITS、XTTS)、声音克隆和20+种语言,采用MPL 2.0许可证。注:Coqui公司于2023年关闭;该项目现由社区维护。
- Bark是唯一生成非语音音频的本地TTS。 它可以在语音旁边生成笑声、咳嗽、叹气、音乐片段和环境声——适用于创意音频、播客制作和交互式小说。
- StyleTTS 2达到所有开源英文TTS引擎中最高的MOS(平均意见得分)。 其基于扩散的风格转移为英文叙述产生接近人类的自然效果。仅支持英文,无声音克隆。
- 许可证对商业使用至关重要。 Piper(MIT)、Bark(MIT)、StyleTTS 2(MIT):完全商业化。Coqui(MPL 2.0):商业使用允许但须披露条件。XTTS v2(CPML):商业使用需要许可协议。F5-TTS(CC-BY-NC-4.0):未经单独协议禁止商业使用。
- 都无法与大规模商业TTS质量相媲美。 ElevenLabs、Google Text-to-Speech和Azure Speech在一致性、自然度和延迟方面仍然超过所有本地引擎。当隐私、成本或离线操作比绝对质量更重要时,本地TTS是正确选择。
快速概览
- 最快的本地TTS: Piper — 在Raspberry Pi 5上实时运行,在现代桌面CPU上约为实时速度的10倍。
- 最佳声音克隆质量: XTTS v2 — 6秒参考音频,支持17种语言的跨语言克隆。
- 最快的零样本声音克隆(新架构): F5-TTS — 约3秒音频,流匹配,在RTX 4070上约为实时速度的3〜5倍。
- 最灵活的开源工具包: Coqui TTS — 支持VITS、Tacotron2、XTTS后端,20+语言模型。
- 唯一的生成式音频(非语音声音): Bark — 笑声、叹气、音乐、环境声。所有引擎中最慢。
- 最佳英语朗读质量: StyleTTS 2 — 基于扩散的风格转移,在LJSpeech基准测试中接近人类MOS。
- VRAM要求: Piper:仅CPU。Kokoro:CPU / 1〜2 GB。StyleTTS 2:2〜4 GB。Coqui VITS:2〜4 GB。F5-TTS:3〜5 GB。XTTS v2:4〜6 GB。Bark:4〜8 GB。
为什么本地TTS很重要
云端TTS服务(ElevenLabs、Google TTS、Amazon Polly、Azure Speech)使用方便,但存在按字符计费、音频数据保留策略以及网络往返延迟等问题。本地TTS消除了所有这三个问题。
- 隐私: 您的文本内容永远不会离开您的设备。对医疗口述、法律摘要、私人日记朗读或机密文件读取至关重要。
- 成本: 云端TTS定价通常为每百万字符4〜30美元。每月生成1000万字符的开发者通过一次性本地部署每月可节省40〜300美元。
- 延迟: 无网络往返。Piper在CPU上50ms内生成第一个音频令牌 — 比任何云端TTS往返都快。
- 自定义: 声音克隆(XTTS v2、F5-TTS、Coqui)允许您从几秒钟的音频创建自定义声音。云提供商每个克隆声音收取10美元以上/月。
- 离线操作: 在飞机上、安全设施中、没有互联网的偏远地区均可工作。适用于信息亭和设备的嵌入式语音界面。
对比表
所有本地TTS引擎按照生产部署最重要的指标进行比较。
📍 简单一句话
Piper在CPU上最快;XTTS v2提供最佳声音克隆质量;F5-TTS通过更新的架构提供零样本克隆;Bark是唯一能产生笑声和音乐的引擎;StyleTTS 2具有最佳的英语朗读自然度。
💬 简单来说
对于大多数离线TTS需求:速度和简洁性选Piper,宽松许可证的声音克隆选Coqui,有GPU的最佳克隆质量选XTTS v2,更快零样本克隆的新架构选F5-TTS。
| 工具 | 质量 | 速度 | 声音克隆 | 多语言 | VRAM | 许可证 | MOS(英语) |
|---|---|---|---|---|---|---|---|
| Piper | 良好 | 非常快(CPU) | 否 | 是(20+语言) | 仅CPU | MIT | ~3.5 |
| Kokoro | 很好 | 快(CPU) | 否 | 英语 + 扩展中 | CPU / 1〜2 GB | Apache 2.0 | ~4.0 |
| Coqui TTS | 很好 | 中等 | 是 | 是(20+语言) | 2〜4 GB | MPL 2.0 | ~3.8 |
| XTTS v2 | 优秀 | 慢 | 是(最佳) | 是(17种语言) | 4〜6 GB | CPML(商业受限) | ~4.1 |
| F5-TTS | 优秀 | 中快 | 是(零样本) | 是(多语言) | 3〜5 GB | CC-BY-NC-4.0 | ~4.1 |
| Bark | 独特 / 可变 | 慢 | 有限 | 是(多语言) | 4〜8 GB | MIT | ~3.2〜4.0(可变) |
| StyleTTS 2 | 优秀(英语) | 中等 | 否 | 主要英语 | 2〜4 GB | MIT | ~4.3 |
MOS(平均意见得分)在1〜5的量表上,5表示与人类语音无法区分。分数是近似值,基于已发布的基准测试或社区评估。MOS因测试句子和听众群体而有显著差异。人类参考MOS:约4.5。
首次音频延迟比较
首次音频延迟是从文本输入到第一个可听输出的时间。对于语音助手和交互式应用程序至关重要。对于批处理(有声书、播客制作),总吞吐量比首次音频延迟更重要。
| 引擎 | 首次音频(RTX 4070) | 首次音频(CPU) | 首次音频(M5 Pro) |
|---|---|---|---|
| Piper | ~30 ms | ~50 ms | ~40 ms |
| Kokoro | ~50 ms | ~80 ms | ~60 ms |
| Coqui VITS | ~100 ms | ~300 ms | ~150 ms |
| StyleTTS 2 | ~150 ms | ~500 ms | ~200 ms |
| F5-TTS | ~200 ms | ~800 ms | ~300 ms |
| XTTS v2 | ~300 ms | ~1500 ms | ~500 ms |
| Bark | ~500 ms | ~3000 ms | ~800 ms |
Piper TTS — 最快的轻量级选项
Piper是由Rhasspy为家庭自动化和嵌入式应用开发的快速本地TTS系统。 它使用基于VITS的神经架构,通过onnxruntime后端在语音数据集上训练 — 经过优化,可在Raspberry Pi 4或5上无需GPU实时运行。
- 架构: 带有ONNX推理的VITS神经TTS。专为单板计算机和嵌入式Linux设计。
- 安装:
pip install piper-tts。预训练语音包可在Hugging Face的Piper voices存储库获取。 - 使用:
echo "你好,世界" | piper --model zh_CN-huayan-medium.onnx --output_file output.wav - 语音包: 20+种语言,每种语言多个语音选项。每个语音包是20〜200 MB的ONNX模型文件。
- 速度: 在现代桌面CPU上约为实时速度的10倍。在Raspberry Pi 5上实时运行。首次音频延迟低于50ms。
- Apple Silicon: 在M5 Pro(CPU,ARM NEON)上约为实时速度的15倍。无需GPU原生运行 — 在Mac上性能出色。
- 收听示例: Piper语音示例
- 最适合: 家庭助手、信息亭设备、嵌入式语音界面、无GPU可用时注重隐私的朗读场景。
- 限制: 无声音克隆。质量"良好" — 听起来自然,但与XTTS v2或StyleTTS 2相比明显是合成音。
- 许可证: MIT — 完全商业化,无限制。
- Kokoro TTS — Piper的替代品: Kokoro TTS是轻量级类别中Piper的新兴替代品。它在CPU上保持快速的同时实现比Piper更高的自然度。采用Apache 2.0许可证。如果Piper的质量不能满足您的需求,但您无法负担GPU VRAM,Kokoro值得测试。
Coqui TTS — 最佳开源全能工具包
Coqui TTS是一个支持多种模型架构和声音克隆的Python文字转语音工具包。 由Coqui公司开发(2023年底已停止运营),现由开源社区维护。该工具包支持Tacotron2、VITS和XTTS后端。
- 安装:
pip install TTS。模型在首次使用时自动下载。 - 声音克隆: 提供6秒以上的参考音频。
tts --text "你好" --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --speaker_wav sample.wav --out_path output.wav - 后端选项: VITS(最快,质量良好)、Tacotron2(较旧,较慢)、XTTS(最佳质量,参见XTTS v2部分)。
- 语言: 通过
tts --list_models可获取20+语言模型。 - VRAM: VITS后端2〜4 GB;XTTS后端4〜6 GB。
- Apple Silicon: 在M5 Pro(CPU)上约为实时速度的8倍。无Metal GPU加速。可用于批量生成。
- 社区状态: Coqui公司于2023年底关闭。开源仓库(
coqui-ai/TTS)由社区维护。无活跃商业支持。 - 许可证: MPL 2.0 — 允许商业使用,但必须披露修改的源代码。
- 最适合: 希望使用开源工具包和宽松许可证进行声音克隆的开发者。
XTTS v2 — 最佳声音克隆质量
XTTS v2(由Coqui开发)是2026年本地可用的最高质量声音克隆引擎。 它使用具有跨语言迁移的GPT架构 — 用英语克隆一个声音,并用同样的6秒音频以西班牙语、德语、法语或其他14种语言说话。
- 架构: 带有说话人条件的GPT TTS。用于韵律建模的视觉变换器。
- 声音克隆: 6秒参考音频即可产生令人信服的声音克隆。3秒可产生可接受的质量。
- 跨语言克隆: 用一种语言克隆声音,用相同的声音特征生成17种不同语言的语音。
- VRAM: 建议4〜6 GB GPU。可在CPU上运行但约慢5〜10倍。
- 速度: 慢 — 在RTX 4070上约以实时速度的2倍生成。不适合实时语音助手管道。
- Apple Silicon: 在M5 Pro(CPU,无Metal加速)上约为实时速度的3倍。可用于批量音频生成,不适合实时语音助手输出。
- 许可证: CPML(Coqui公共模型许可证)。研究和个人使用免费。商业使用需要许可证协议。
from TTS.api import TTS
# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
text="Bonjour, je suis votre assistant vocal.",
speaker_wav="reference_voice.wav", # 6+ seconds of the target speaker
language="fr", # Output in French using the cloned voice
file_path="output.wav"
)⚠️Warning: XTTS v2受CPML许可证约束。商业使用——包括在产品、SaaS应用程序或服务中——需要商业许可证协议。部署前请检查许可证条款。
Bark — 超越语音的生成式音频
Bark(由Suno AI开发)是一个生成式文字转音频模型,可从文本提示生成语音、音乐、笑声、咳嗽、叹息和环境声音。 它不是传统的TTS引擎 — 而是将文本提示解释为音频生成指令的生成模型。
- 独特功能: 在文本中加入`[laughs]
、[sighs]、[clears throat]、[music]或[sound effect: wind]`,Bark会在语音旁边生成这些声音。 - 不像传统TTS那样可控: 相同输入的输出在不同运行之间会有变化。质量不一致 — 有些输出出色,有些有噪音或难以理解的片段。
- 速度: 慢 — 即使在RTX 4090上也比实时速度慢2〜4倍。不适合交互式应用程序。
- Apple Silicon: 在M5 Pro(CPU,MPS部分)上约为实时速度的1.5倍。MPS(Metal Performance Shaders)支持不完整 — 大多数推理仍回退到CPU。
- 最适合: 创意音频、带音效的播客制作、互动小说、实验性语音应用程序。
- VRAM: 4〜8 GB GPU。在CPU上运行质量明显较低。
- 安装:
pip install suno-bark。模型在首次运行时下载(约2 GB)。 - 许可证: MIT — 完全商业化。
- 限制: 无可靠的声音克隆。Bark附带的"语音预设"是近似的 — 不是真正的声音克隆系统。
StyleTTS 2 — 最高自然质量
StyleTTS 2是一个基于扩散的TTS模型,在LJSpeech基准测试上达到接近人类的MOS(平均意见得分)。 它使用扩散进行说话风格迁移 — 生成比基于VITS的模型更自然、更富表现力的语音。
- 架构: 基于扩散的风格迁移。从学习到的说话风格分布中采样,而不是将文本确定性地映射到音频。
- 质量: 在LJSpeech基准测试中,所有开源英语TTS引擎中MOS分数最高。
- 最适合: 有声书朗读、专业配音、播客制作。
- 安装: 克隆GitHub仓库,安装要求(
pip install -r requirements.txt),下载模型检查点(约500 MB)。 - 语言支持: 主要是英语。不建议用于非英语场景。
- 声音克隆: 不支持。StyleTTS 2只使用训练的说话人声音生成。
- VRAM: 2〜4 GB GPU。在RTX 4070上约为实时速度的5〜8倍,比XTTS v2更快。
- Apple Silicon: 在M5 Pro(CPU)上约为实时速度的6倍。无Metal加速。
- 许可证: MIT — 完全商业化。
F5-TTS — 零样本声音克隆,完全开放
F5-TTS是一个具有零样本声音克隆的流匹配TTS模型 — 无需微调,从约3秒参考音频克隆任何声音。
- 架构: 流匹配(扩散变体方法),而非XTTS v2使用的GPT架构。通常以更快的推理速度实现具有竞争力的质量。
- 声音克隆: 约3秒参考音频即可。不需要微调。
- 质量: 在英语上与XTTS v2具有竞争力。社区评估中MOS分数约4.1。
- 速度: 在RTX 4070上约为实时速度的3〜5倍 — 比XTTS v2更快。
- 语言: 对英语和中文有强力支持,对其他语言的支持正在扩展。
- Apple Silicon: 在M5 Pro(CPU)上约为实时速度的2倍。目前无Metal加速。
- VRAM: 建议3〜5 GB GPU。
- 安装:
pip install f5-tts或从GitHub克隆。 - 许可证: CC-BY-NC-4.0 — 仅非商业使用。商业使用需要单独协议。
许可证详情 — 商业使用的重要信息
许可证条款对生产部署至关重要。
| 工具 | 许可证 | 商业使用? | 主要条件 |
|---|---|---|---|
| Piper | MIT | 是 — 无限制 | 包含MIT版权声明 |
| Kokoro | Apache 2.0 | 是 — 无限制 | 包含Apache 2.0声明 |
| Coqui TTS | MPL 2.0 | 是 — 有条件 | 必须披露修改的源代码 |
| XTTS v2 | CPML | 仅研究/个人 | 商业使用需要许可证协议 |
| F5-TTS | CC-BY-NC-4.0 | 仅非商业 | 未经单独协议禁止商业使用 |
| Bark | MIT | 是 — 无限制 | 包含MIT版权声明 |
| StyleTTS 2 | MIT | 是 — 无限制 | 包含MIT版权声明 |
📌Note: Coqui TTS(工具包,MPL 2.0)和XTTS v2(特定模型,CPML)有不同的许可证。您可以在商业产品中使用Coqui TTS工具包的VITS或Tacotron2后端(MPL 2.0)。CPML限制专门适用于XTTS v2模型权重。
本地TTS与ElevenLabs和云端TTS的比较
ElevenLabs、Google Text-to-Speech和Azure Speech在2026年仍是TTS的质量上限。
- 质量上限: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper。
- 延迟: 本地Piper(首次音频30〜50 ms)比任何ElevenLabs API往返(300〜500 ms)都快。
- 成本: ElevenLabs按套餐收费5〜99美元/月。本地TTS在一次性硬件后成本为0美元。
- 声音克隆: ElevenLabs Instant Voice Clone ≈ XTTS v2质量。ElevenLabs Professional Voice Clone超过任何本地引擎。
- 隐私: 本地TTS = 音频数据不发送到任何地方。ElevenLabs = 音频在其服务器上处理。
- 离线能力: 本地 = 完全离线。ElevenLabs = 需要互联网。
- 何时使用云端: 专业配音制作、需要最高质量的面向客户产品。
- 何时使用本地: 隐私敏感音频、嵌入式设备、成本敏感的批量处理、离线环境。
如何选择
从您的需求到正确TTS引擎的决策流程:
📍 简单一句话
需要声音克隆?→ XTTS v2(最佳质量)或F5-TTS(更快,新架构)或Coqui TTS(开放许可证)。需要CPU速度?→ Piper。需要创意音频?→ Bark。需要最佳英语质量?→ StyleTTS 2。
💬 简单来说
声音克隆:质量选XTTS v2,速度选F5-TTS,宽松许可证选Coqui VITS。CPU/Raspberry Pi:仅Piper。播客音效:Bark。英语有声书:StyleTTS 2。
- 需要声音克隆? → XTTS v2(最佳质量,CPML)或F5-TTS(新架构,更快,CC-BY-NC-4.0)或Coqui VITS(良好质量,MPL 2.0)。不需要克隆:Piper(速度)或StyleTTS 2(质量)。
- 需要仅CPU / Raspberry Pi? → 仅Piper。Kokoro是更高质量的CPU替代品(Apache 2.0)。所有其他引擎都需要GPU。
- 需要带有非语音声音的创意音频? → Bark。没有其他本地引擎能原生产生笑声、叹息或音乐。
- 需要最佳英语朗读质量? → StyleTTS 2。
- 需要多语言支持? → XTTS v2(17种语言),Coqui(20+),Piper(20+语音包)。
- 需要完全商业化的MIT许可证? → Piper、Bark或StyleTTS 2。
- 构建语音助手管道? → 使用Piper实现低延迟TTS输出。
常见问题
使用XTTS v2进行声音克隆需要多少参考音频?
XTTS v2需要至少3秒的干净参考音频,6+秒会得到明显更好的效果。音频必须是单个扬声器,背景噪声和音乐最少。高质量的源材料比压缩音频产生更好的克隆。
我可以在商业产品中使用Piper TTS吗?
可以。Piper在MIT许可证下授权,允许无限制的商业使用。您必须在产品中包含MIT许可证声明。语音模型(ONNX文件)可能具有单个语音的单独许可证。
哪个本地TTS引擎具有最佳的多语言支持?
XTTS v2支持17种语言的多语言声音克隆——所有本地引擎中最令人印象深刻的多语言功能。Coqui TTS拥有20+种语言模型但缺乏多语言克隆。Piper为快速CPU推理拥有20+种语言语音包。
哪个本地TTS引擎听起来最像人类?
英文叙述方面StyleTTS 2最佳——它达到所有开源英文TTS引擎的最高MOS分数(~4.3 对人类参考 ~4.5)。XTTS v2和F5-TTS在克隆语音自然度方面有竞争力(~4.1)。
参考资源
- Piper TTS on GitHub — 源代码、语音包、ONNX模型下载和Raspberry Pi设置指南。
- Coqui TTS on GitHub — 源代码、模型列表、声音克隆文档和Python API参考。
- XTTS v2文档 — XTTS v2模型卡、许可证(CPML)和声音克隆API。
- F5-TTS on GitHub — 流匹配TTS、零样本声音克隆、安装指南和多语言支持。