PromptQuorumPromptQuorum
主页/Power Local LLM/本地TTS与声音克隆2026:Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2
Voice, Speech & Multimodal

本地TTS与声音克隆2026:Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2

·阅读约16分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

2026年,六款本地文字转语音引擎在不同场景中各有优势:Piper以CPU和嵌入式硬件速度见长;Coqui TTS在质量和声音克隆之间取得平衡;XTTS v2提供最佳声音克隆质量(6秒参考音频即可在17种语言中克隆声音);F5-TTS采用新型流匹配架构实现零样本声音克隆;Bark能生成包括笑声和音乐在内的创意生成式音频;StyleTTS 2在英文朗读方面达到接近人类的质量。本指南从质量、速度、VRAM要求、声音克隆能力、多语言支持和许可证等维度对六款引擎进行全面对比。

关键要点

  • Piper是速度和嵌入式应用的最佳选择。 完全在CPU上运行,在Raspberry Pi 5上生成实时语音,通过可下载的语音包支持20+种语言。无GPU、无Python复杂性、MIT许可证。
  • XTTS v2是2026年本地声音克隆质量最佳的选择。 输入6秒参考音频,它就能在17种语言中克隆声音。需要4–6 GB GPU VRAM。CPML许可证限制商业使用。
  • F5-TTS是零样本声音克隆领域快速增长的替代方案。 它采用流匹配架构而非GPT,从~3秒参考音频克隆声音,实现与XTTS v2相当的质量但推理速度更快。许可证:CC-BY-NC-4.0(仅非商业)。
  • Coqui TTS是最灵活的开源TTS工具包。 它支持多个后端(Tacotron2、VITS、XTTS)、声音克隆和20+种语言,采用MPL 2.0许可证。注:Coqui公司于2023年关闭;该项目现由社区维护。
  • Bark是唯一生成非语音音频的本地TTS。 它可以在语音旁边生成笑声、咳嗽、叹气、音乐片段和环境声——适用于创意音频、播客制作和交互式小说。
  • StyleTTS 2达到所有开源英文TTS引擎中最高的MOS(平均意见得分)。 其基于扩散的风格转移为英文叙述产生接近人类的自然效果。仅支持英文,无声音克隆。
  • 许可证对商业使用至关重要。 Piper(MIT)、Bark(MIT)、StyleTTS 2(MIT):完全商业化。Coqui(MPL 2.0):商业使用允许但须披露条件。XTTS v2(CPML):商业使用需要许可协议。F5-TTS(CC-BY-NC-4.0):未经单独协议禁止商业使用。
  • 都无法与大规模商业TTS质量相媲美。 ElevenLabs、Google Text-to-Speech和Azure Speech在一致性、自然度和延迟方面仍然超过所有本地引擎。当隐私、成本或离线操作比绝对质量更重要时,本地TTS是正确选择。

快速概览

  • 最快的本地TTS: Piper — 在Raspberry Pi 5上实时运行,在现代桌面CPU上约为实时速度的10倍。
  • 最佳声音克隆质量: XTTS v2 — 6秒参考音频,支持17种语言的跨语言克隆。
  • 最快的零样本声音克隆(新架构): F5-TTS — 约3秒音频,流匹配,在RTX 4070上约为实时速度的3〜5倍。
  • 最灵活的开源工具包: Coqui TTS — 支持VITS、Tacotron2、XTTS后端,20+语言模型。
  • 唯一的生成式音频(非语音声音): Bark — 笑声、叹气、音乐、环境声。所有引擎中最慢。
  • 最佳英语朗读质量: StyleTTS 2 — 基于扩散的风格转移,在LJSpeech基准测试中接近人类MOS。
  • VRAM要求: Piper:仅CPU。Kokoro:CPU / 1〜2 GB。StyleTTS 2:2〜4 GB。Coqui VITS:2〜4 GB。F5-TTS:3〜5 GB。XTTS v2:4〜6 GB。Bark:4〜8 GB。

为什么本地TTS很重要

云端TTS服务(ElevenLabs、Google TTS、Amazon Polly、Azure Speech)使用方便,但存在按字符计费、音频数据保留策略以及网络往返延迟等问题。本地TTS消除了所有这三个问题。

  • 隐私: 您的文本内容永远不会离开您的设备。对医疗口述、法律摘要、私人日记朗读或机密文件读取至关重要。
  • 成本: 云端TTS定价通常为每百万字符4〜30美元。每月生成1000万字符的开发者通过一次性本地部署每月可节省40〜300美元。
  • 延迟: 无网络往返。Piper在CPU上50ms内生成第一个音频令牌 — 比任何云端TTS往返都快。
  • 自定义: 声音克隆(XTTS v2、F5-TTS、Coqui)允许您从几秒钟的音频创建自定义声音。云提供商每个克隆声音收取10美元以上/月。
  • 离线操作: 在飞机上、安全设施中、没有互联网的偏远地区均可工作。适用于信息亭和设备的嵌入式语音界面。

对比表

所有本地TTS引擎按照生产部署最重要的指标进行比较。

📍 简单一句话

Piper在CPU上最快;XTTS v2提供最佳声音克隆质量;F5-TTS通过更新的架构提供零样本克隆;Bark是唯一能产生笑声和音乐的引擎;StyleTTS 2具有最佳的英语朗读自然度。

💬 简单来说

对于大多数离线TTS需求:速度和简洁性选Piper,宽松许可证的声音克隆选Coqui,有GPU的最佳克隆质量选XTTS v2,更快零样本克隆的新架构选F5-TTS。

工具质量速度声音克隆多语言VRAM许可证MOS(英语)
Piper良好非常快(CPU)是(20+语言)仅CPUMIT~3.5
Kokoro很好快(CPU)英语 + 扩展中CPU / 1〜2 GBApache 2.0~4.0
Coqui TTS很好中等是(20+语言)2〜4 GBMPL 2.0~3.8
XTTS v2优秀是(最佳)是(17种语言)4〜6 GBCPML(商业受限)~4.1
F5-TTS优秀中快是(零样本)是(多语言)3〜5 GBCC-BY-NC-4.0~4.1
Bark独特 / 可变有限是(多语言)4〜8 GBMIT~3.2〜4.0(可变)
StyleTTS 2优秀(英语)中等主要英语2〜4 GBMIT~4.3

MOS(平均意见得分)在1〜5的量表上,5表示与人类语音无法区分。分数是近似值,基于已发布的基准测试或社区评估。MOS因测试句子和听众群体而有显著差异。人类参考MOS:约4.5。

首次音频延迟比较

首次音频延迟是从文本输入到第一个可听输出的时间。对于语音助手和交互式应用程序至关重要。对于批处理(有声书、播客制作),总吞吐量比首次音频延迟更重要。

引擎首次音频(RTX 4070)首次音频(CPU)首次音频(M5 Pro)
Piper~30 ms~50 ms~40 ms
Kokoro~50 ms~80 ms~60 ms
Coqui VITS~100 ms~300 ms~150 ms
StyleTTS 2~150 ms~500 ms~200 ms
F5-TTS~200 ms~800 ms~300 ms
XTTS v2~300 ms~1500 ms~500 ms
Bark~500 ms~3000 ms~800 ms

Piper TTS — 最快的轻量级选项

Piper是由Rhasspy为家庭自动化和嵌入式应用开发的快速本地TTS系统。 它使用基于VITS的神经架构,通过onnxruntime后端在语音数据集上训练 — 经过优化,可在Raspberry Pi 4或5上无需GPU实时运行。

  • 架构: 带有ONNX推理的VITS神经TTS。专为单板计算机和嵌入式Linux设计。
  • 安装: pip install piper-tts。预训练语音包可在Hugging Face的Piper voices存储库获取。
  • 使用: echo "你好,世界" | piper --model zh_CN-huayan-medium.onnx --output_file output.wav
  • 语音包: 20+种语言,每种语言多个语音选项。每个语音包是20〜200 MB的ONNX模型文件。
  • 速度: 在现代桌面CPU上约为实时速度的10倍。在Raspberry Pi 5上实时运行。首次音频延迟低于50ms。
  • Apple Silicon: 在M5 Pro(CPU,ARM NEON)上约为实时速度的15倍。无需GPU原生运行 — 在Mac上性能出色。
  • 收听示例: Piper语音示例
  • 最适合: 家庭助手、信息亭设备、嵌入式语音界面、无GPU可用时注重隐私的朗读场景。
  • 限制: 无声音克隆。质量"良好" — 听起来自然,但与XTTS v2或StyleTTS 2相比明显是合成音。
  • 许可证: MIT — 完全商业化,无限制。
  • Kokoro TTS — Piper的替代品: Kokoro TTS是轻量级类别中Piper的新兴替代品。它在CPU上保持快速的同时实现比Piper更高的自然度。采用Apache 2.0许可证。如果Piper的质量不能满足您的需求,但您无法负担GPU VRAM,Kokoro值得测试。

Coqui TTS — 最佳开源全能工具包

Coqui TTS是一个支持多种模型架构和声音克隆的Python文字转语音工具包。 由Coqui公司开发(2023年底已停止运营),现由开源社区维护。该工具包支持Tacotron2、VITS和XTTS后端。

  • 安装: pip install TTS。模型在首次使用时自动下载。
  • 声音克隆: 提供6秒以上的参考音频。tts --text "你好" --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --speaker_wav sample.wav --out_path output.wav
  • 后端选项: VITS(最快,质量良好)、Tacotron2(较旧,较慢)、XTTS(最佳质量,参见XTTS v2部分)。
  • 语言: 通过tts --list_models可获取20+语言模型。
  • VRAM: VITS后端2〜4 GB;XTTS后端4〜6 GB。
  • Apple Silicon: 在M5 Pro(CPU)上约为实时速度的8倍。无Metal GPU加速。可用于批量生成。
  • 社区状态: Coqui公司于2023年底关闭。开源仓库(coqui-ai/TTS)由社区维护。无活跃商业支持。
  • 许可证: MPL 2.0 — 允许商业使用,但必须披露修改的源代码。
  • 最适合: 希望使用开源工具包和宽松许可证进行声音克隆的开发者。

XTTS v2 — 最佳声音克隆质量

XTTS v2(由Coqui开发)是2026年本地可用的最高质量声音克隆引擎。 它使用具有跨语言迁移的GPT架构 — 用英语克隆一个声音,并用同样的6秒音频以西班牙语、德语、法语或其他14种语言说话。

  • 架构: 带有说话人条件的GPT TTS。用于韵律建模的视觉变换器。
  • 声音克隆: 6秒参考音频即可产生令人信服的声音克隆。3秒可产生可接受的质量。
  • 跨语言克隆: 用一种语言克隆声音,用相同的声音特征生成17种不同语言的语音。
  • VRAM: 建议4〜6 GB GPU。可在CPU上运行但约慢5〜10倍。
  • 速度: 慢 — 在RTX 4070上约以实时速度的2倍生成。不适合实时语音助手管道。
  • Apple Silicon: 在M5 Pro(CPU,无Metal加速)上约为实时速度的3倍。可用于批量音频生成,不适合实时语音助手输出。
  • 许可证: CPML(Coqui公共模型许可证)。研究和个人使用免费。商业使用需要许可证协议。
python
from TTS.api import TTS

# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
    text="Bonjour, je suis votre assistant vocal.",
    speaker_wav="reference_voice.wav",   # 6+ seconds of the target speaker
    language="fr",                        # Output in French using the cloned voice
    file_path="output.wav"
)

⚠️Warning: XTTS v2受CPML许可证约束。商业使用——包括在产品、SaaS应用程序或服务中——需要商业许可证协议。部署前请检查许可证条款。

Bark — 超越语音的生成式音频

Bark(由Suno AI开发)是一个生成式文字转音频模型,可从文本提示生成语音、音乐、笑声、咳嗽、叹息和环境声音。 它不是传统的TTS引擎 — 而是将文本提示解释为音频生成指令的生成模型。

  • 独特功能: 在文本中加入`[laughs][sighs][clears throat][music][sound effect: wind]`,Bark会在语音旁边生成这些声音。
  • 不像传统TTS那样可控: 相同输入的输出在不同运行之间会有变化。质量不一致 — 有些输出出色,有些有噪音或难以理解的片段。
  • 速度: 慢 — 即使在RTX 4090上也比实时速度慢2〜4倍。不适合交互式应用程序。
  • Apple Silicon: 在M5 Pro(CPU,MPS部分)上约为实时速度的1.5倍。MPS(Metal Performance Shaders)支持不完整 — 大多数推理仍回退到CPU。
  • 最适合: 创意音频、带音效的播客制作、互动小说、实验性语音应用程序。
  • VRAM: 4〜8 GB GPU。在CPU上运行质量明显较低。
  • 安装: pip install suno-bark。模型在首次运行时下载(约2 GB)。
  • 许可证: MIT — 完全商业化。
  • 限制: 无可靠的声音克隆。Bark附带的"语音预设"是近似的 — 不是真正的声音克隆系统。

StyleTTS 2 — 最高自然质量

StyleTTS 2是一个基于扩散的TTS模型,在LJSpeech基准测试上达到接近人类的MOS(平均意见得分)。 它使用扩散进行说话风格迁移 — 生成比基于VITS的模型更自然、更富表现力的语音。

  • 架构: 基于扩散的风格迁移。从学习到的说话风格分布中采样,而不是将文本确定性地映射到音频。
  • 质量: 在LJSpeech基准测试中,所有开源英语TTS引擎中MOS分数最高。
  • 最适合: 有声书朗读、专业配音、播客制作。
  • 安装: 克隆GitHub仓库,安装要求(pip install -r requirements.txt),下载模型检查点(约500 MB)。
  • 语言支持: 主要是英语。不建议用于非英语场景。
  • 声音克隆: 不支持。StyleTTS 2只使用训练的说话人声音生成。
  • VRAM: 2〜4 GB GPU。在RTX 4070上约为实时速度的5〜8倍,比XTTS v2更快。
  • Apple Silicon: 在M5 Pro(CPU)上约为实时速度的6倍。无Metal加速。
  • 许可证: MIT — 完全商业化。

F5-TTS — 零样本声音克隆,完全开放

F5-TTS是一个具有零样本声音克隆的流匹配TTS模型 — 无需微调,从约3秒参考音频克隆任何声音。

  • 架构: 流匹配(扩散变体方法),而非XTTS v2使用的GPT架构。通常以更快的推理速度实现具有竞争力的质量。
  • 声音克隆: 约3秒参考音频即可。不需要微调。
  • 质量: 在英语上与XTTS v2具有竞争力。社区评估中MOS分数约4.1。
  • 速度: 在RTX 4070上约为实时速度的3〜5倍 — 比XTTS v2更快。
  • 语言: 对英语和中文有强力支持,对其他语言的支持正在扩展。
  • Apple Silicon: 在M5 Pro(CPU)上约为实时速度的2倍。目前无Metal加速。
  • VRAM: 建议3〜5 GB GPU。
  • 安装: pip install f5-tts或从GitHub克隆。
  • 许可证: CC-BY-NC-4.0 — 仅非商业使用。商业使用需要单独协议。

许可证详情 — 商业使用的重要信息

许可证条款对生产部署至关重要。

工具许可证商业使用?主要条件
PiperMIT是 — 无限制包含MIT版权声明
KokoroApache 2.0是 — 无限制包含Apache 2.0声明
Coqui TTSMPL 2.0是 — 有条件必须披露修改的源代码
XTTS v2CPML仅研究/个人商业使用需要许可证协议
F5-TTSCC-BY-NC-4.0仅非商业未经单独协议禁止商业使用
BarkMIT是 — 无限制包含MIT版权声明
StyleTTS 2MIT是 — 无限制包含MIT版权声明

📌Note: Coqui TTS(工具包,MPL 2.0)和XTTS v2(特定模型,CPML)有不同的许可证。您可以在商业产品中使用Coqui TTS工具包的VITS或Tacotron2后端(MPL 2.0)。CPML限制专门适用于XTTS v2模型权重。

本地TTS与ElevenLabs和云端TTS的比较

ElevenLabs、Google Text-to-Speech和Azure Speech在2026年仍是TTS的质量上限。

  • 质量上限: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper。
  • 延迟: 本地Piper(首次音频30〜50 ms)比任何ElevenLabs API往返(300〜500 ms)都快。
  • 成本: ElevenLabs按套餐收费5〜99美元/月。本地TTS在一次性硬件后成本为0美元。
  • 声音克隆: ElevenLabs Instant Voice Clone ≈ XTTS v2质量。ElevenLabs Professional Voice Clone超过任何本地引擎。
  • 隐私: 本地TTS = 音频数据不发送到任何地方。ElevenLabs = 音频在其服务器上处理。
  • 离线能力: 本地 = 完全离线。ElevenLabs = 需要互联网。
  • 何时使用云端: 专业配音制作、需要最高质量的面向客户产品。
  • 何时使用本地: 隐私敏感音频、嵌入式设备、成本敏感的批量处理、离线环境。

如何选择

从您的需求到正确TTS引擎的决策流程:

📍 简单一句话

需要声音克隆?→ XTTS v2(最佳质量)或F5-TTS(更快,新架构)或Coqui TTS(开放许可证)。需要CPU速度?→ Piper。需要创意音频?→ Bark。需要最佳英语质量?→ StyleTTS 2。

💬 简单来说

声音克隆:质量选XTTS v2,速度选F5-TTS,宽松许可证选Coqui VITS。CPU/Raspberry Pi:仅Piper。播客音效:Bark。英语有声书:StyleTTS 2。

  • 需要声音克隆? → XTTS v2(最佳质量,CPML)或F5-TTS(新架构,更快,CC-BY-NC-4.0)或Coqui VITS(良好质量,MPL 2.0)。不需要克隆:Piper(速度)或StyleTTS 2(质量)。
  • 需要仅CPU / Raspberry Pi? → 仅Piper。Kokoro是更高质量的CPU替代品(Apache 2.0)。所有其他引擎都需要GPU。
  • 需要带有非语音声音的创意音频? → Bark。没有其他本地引擎能原生产生笑声、叹息或音乐。
  • 需要最佳英语朗读质量? → StyleTTS 2。
  • 需要多语言支持? → XTTS v2(17种语言),Coqui(20+),Piper(20+语音包)。
  • 需要完全商业化的MIT许可证? → Piper、Bark或StyleTTS 2。
  • 构建语音助手管道? → 使用Piper实现低延迟TTS输出。

常见问题

使用XTTS v2进行声音克隆需要多少参考音频?

XTTS v2需要至少3秒的干净参考音频,6+秒会得到明显更好的效果。音频必须是单个扬声器,背景噪声和音乐最少。高质量的源材料比压缩音频产生更好的克隆。

我可以在商业产品中使用Piper TTS吗?

可以。Piper在MIT许可证下授权,允许无限制的商业使用。您必须在产品中包含MIT许可证声明。语音模型(ONNX文件)可能具有单个语音的单独许可证。

哪个本地TTS引擎具有最佳的多语言支持?

XTTS v2支持17种语言的多语言声音克隆——所有本地引擎中最令人印象深刻的多语言功能。Coqui TTS拥有20+种语言模型但缺乏多语言克隆。Piper为快速CPU推理拥有20+种语言语音包。

哪个本地TTS引擎听起来最像人类?

英文叙述方面StyleTTS 2最佳——它达到所有开源英文TTS引擎的最高MOS分数(~4.3 对人类参考 ~4.5)。XTTS v2和F5-TTS在克隆语音自然度方面有竞争力(~4.1)。

参考资源

  • Piper TTS on GitHub — 源代码、语音包、ONNX模型下载和Raspberry Pi设置指南。
  • Coqui TTS on GitHub — 源代码、模型列表、声音克隆文档和Python API参考。
  • XTTS v2文档 — XTTS v2模型卡、许可证(CPML)和声音克隆API。
  • F5-TTS on GitHub — 流匹配TTS、零样本声音克隆、安装指南和多语言支持。

← 返回 Power Local LLM

本地TTS 2026:Piper vs Coqui vs XTTS v2 vs F5-TTS vs Bark vs StyleTTS 2