Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM进阶/本地TTS与声音克隆许可证2026:哪些引擎允许商业使用(Piper、XTTS v2、F5-TTS、Coqui)
Voice, Speech & Multimodal

本地TTS与声音克隆许可证2026:哪些引擎允许商业使用(Piper、XTTS v2、F5-TTS、Coqui)

·阅读约16分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

本地文字转语音引擎能否用于商业产品?这完全取决于许可证,而各引擎的许可证差异很大。Piper、Bark和StyleTTS 2采用MIT许可证,Kokoro和Tortoise采用Apache 2.0 — 四者均可免费商用。Coqui TTS工具包为MPL 2.0(商用有条件)。但两款最受欢迎的声音克隆模型受限:XTTS v2采用Coqui Public Model License(CPML,非商用),F5-TTS采用CC-BY-NC-4.0(非商用)。本指南给出每款引擎的确切许可证、明确的「能否商用?」答案、用于在Docker和CI中非交互式接受CPML的COQUI_TOS_AGREED环境变量,以及质量、速度、VRAM和声音克隆的逐项对比 — 让你无需将音频发送到云端、也不会在生产环境中遇到许可证意外,即可选对引擎。(许可证已于2026年6月核实;本文为事实参考,非法律意见 — 商用前请自行阅读各许可证。)

关键要点

  • Piper是速度和嵌入式应用的最佳选择。 完全在CPU上运行,在Raspberry Pi 5上生成实时语音,通过可下载的语音包支持20+种语言。无GPU、无Python复杂性、MIT许可证。
  • XTTS v2是2026年本地声音克隆的最佳选择 — 但它是非商用的。 输入6秒参考音频,它就能在17种语言中克隆声音(4–6 GB GPU VRAM)。CPML许可证为非商用,且自Coqui于2024年1月关闭后已无商业许可证可售 — 请将XTTS v2视为仅限非商用。在Docker/CI中用COQUI_TOS_AGREED=1非交互式接受CPML。
  • F5-TTS是零样本声音克隆领域快速增长的替代方案。 它采用流匹配架构而非GPT,从~3秒参考音频克隆声音,实现与XTTS v2相当的质量但推理速度更快。许可证:CC-BY-NC-4.0(仅非商业)。
  • Coqui TTS是最灵活的开源TTS工具包。 它支持多个后端(Tacotron2、VITS、XTTS)、声音克隆和20+种语言,采用MPL 2.0许可证。注:Coqui公司于2024年1月关闭;该项目现由社区维护。
  • Bark是唯一生成非语音音频的本地TTS。 它可以在语音旁边生成笑声、咳嗽、叹气、音乐片段和环境声——适用于创意音频、播客制作和交互式小说。
  • StyleTTS 2达到所有开源英文TTS引擎中最高的MOS(平均意见得分)。 其基于扩散的风格转移为英文叙述产生接近人类的自然效果。仅支持英文,无声音克隆。
  • 许可证决定商业使用 — 且界限清晰。 可免费商用:Piper、Bark、StyleTTS 2(MIT)以及Kokoro、Tortoise(Apache 2.0)。商用有条件:Coqui TTS工具包(MPL 2.0,须披露对工具包的修改)。仅限非商用:XTTS v2(CPML)和F5-TTS(CC-BY-NC-4.0) — 两者均需单独协议。商业声音克隆请用Tortoise(Apache 2.0)或基于VITS后端的Coqui工具包(MPL 2.0)。本文为事实参考,非法律意见。
  • 都无法与大规模商业TTS质量相媲美。 ElevenLabs、Google Text-to-Speech和Azure Speech在一致性、自然度和延迟方面仍然超过所有本地引擎。当隐私、成本或离线操作比绝对质量更重要时,本地TTS是正确选择。

快速概览

  • 最快的本地TTS: Piper — 在Raspberry Pi 5上实时运行,在现代桌面CPU上约为实时速度的10倍。
  • 最佳声音克隆质量: XTTS v2 — 6秒参考音频,支持17种语言的跨语言克隆。
  • 最快的零样本声音克隆(新架构): F5-TTS — 约3秒音频,流匹配,在RTX 4070上约为实时速度的3〜5倍。
  • 最灵活的开源工具包: Coqui TTS — 支持VITS、Tacotron2、XTTS后端,20+语言模型。
  • 唯一的生成式音频(非语音声音): Bark — 笑声、叹气、音乐、环境声。所有引擎中最慢。
  • 最佳英语朗读质量: StyleTTS 2 — 基于扩散的风格转移,在LJSpeech基准测试中接近人类MOS。
  • 可免费商用: Piper、Bark、StyleTTS 2(MIT);Kokoro、Tortoise(Apache 2.0);Coqui TTS工具包(MPL 2.0,有条件)。非商用: XTTS v2(CPML)、F5-TTS(CC-BY-NC-4.0)。
  • XTTS v2的声音与语言: 无固定声音列表 — 你提供一段6秒参考音频,它便克隆该声音。模型附带内置说话人预设,并能生成17种语言:en、es、fr、de、it、pt、pl、tr、ru、nl、cs、ar、zh-cn、ja、hu、ko、hi。
  • XTTS v2 VRAM: 模型权重约2 GB;运行最低4 GB,实时推理推荐4–6 GB。
  • 在CI/Docker中接受CPML: export COQUI_TOS_AGREED=1 — 无需交互式提示。
  • VRAM要求: Piper:仅CPU。Kokoro:CPU / 1〜2 GB。StyleTTS 2:2〜4 GB。Coqui VITS:2〜4 GB。F5-TTS:3〜5 GB。XTTS v2:4〜6 GB。Bark:4〜8 GB。Tortoise:4〜8 GB。

为什么本地TTS很重要

云端TTS服务(ElevenLabs、Google TTS、Amazon Polly、Azure Speech)使用方便,但存在按字符计费、音频数据保留策略以及网络往返延迟等问题。本地TTS消除了所有这三个问题。

  • 隐私: 您的文本内容永远不会离开您的设备。对医疗口述、法律摘要、私人日记朗读或机密文件读取至关重要。
  • 成本: 云端TTS定价通常为每百万字符4〜30美元。每月生成1000万字符的开发者通过一次性本地部署每月可节省40〜300美元。
  • 延迟: 无网络往返。Piper在CPU上50ms内生成第一个音频令牌 — 比任何云端TTS往返都快。
  • 自定义: 声音克隆(XTTS v2、F5-TTS、Coqui)允许您从几秒钟的音频创建自定义声音。云提供商每个克隆声音收取10美元以上/月。
  • 离线操作: 在飞机上、安全设施中、没有互联网的偏远地区均可工作。适用于信息亭和设备的嵌入式语音界面。
  • 智能家居: Piper是常驻本地语音界面的主流TTS层,在Raspberry Pi上实时运行,无需GPU。要了解集成到Home Assistant的完整离线语音助手,请参阅智能家居本地语音助手 →

对比表

所有本地TTS引擎按照生产部署最重要的指标进行比较。

📍 简单一句话

Piper在CPU上最快;XTTS v2提供最佳声音克隆质量;F5-TTS通过更新的架构提供零样本克隆;Bark是唯一能产生笑声和音乐的引擎;StyleTTS 2具有最佳的英语朗读自然度。

💬 简单来说

对于大多数离线TTS需求:速度和简洁性选Piper,宽松许可证的声音克隆选Coqui,有GPU的最佳克隆质量选XTTS v2,更快零样本克隆的新架构选F5-TTS。

工具质量速度声音克隆多语言VRAM许可证MOS(英语)
Piper良好非常快(CPU)是(20+语言)仅CPUMIT~3.5
Kokoro很好快(CPU)英语 + 扩展中CPU / 1〜2 GBApache 2.0~4.0
Coqui TTS很好中等是(20+语言)2〜4 GBMPL 2.0~3.8
XTTS v2优秀是(最佳)是(17种语言)4〜6 GBCPML(非商用)~4.1
F5-TTS优秀中快是(零样本)是(多语言)3〜5 GBCC-BY-NC-4.0~4.1
Bark独特 / 可变有限是(多语言)4〜8 GBMIT~3.2〜4.0(可变)
StyleTTS 2优秀(英语)中等主要英语2〜4 GBMIT~4.3
Tortoise优秀非常慢(每句数分钟)主要英语4〜8 GBApache 2.0~4.2

MOS(平均意见得分)在1〜5的量表上,5表示与人类语音无法区分。分数是近似值,基于已发布的基准测试或社区评估。MOS因测试句子和听众群体而有显著差异。人类参考MOS:约4.5。

首次音频延迟比较

首次音频延迟是从文本输入到第一个可听输出的时间。对于语音助手和交互式应用程序至关重要。对于批处理(有声书、播客制作),总吞吐量比首次音频延迟更重要。

引擎首次音频(RTX 4070)首次音频(CPU)首次音频(M5 Pro)
Piper~30 ms~50 ms~40 ms
Kokoro~50 ms~80 ms~60 ms
Coqui VITS~100 ms~300 ms~150 ms
StyleTTS 2~150 ms~500 ms~200 ms
F5-TTS~200 ms~800 ms~300 ms
XTTS v2~300 ms~1500 ms~500 ms
Bark~500 ms~3000 ms~800 ms

Piper TTS — 最快的轻量级选项

Piper是由Rhasspy为家庭自动化和嵌入式应用开发的快速本地TTS系统。 它使用基于VITS的神经架构,通过onnxruntime后端在语音数据集上训练 — 经过优化,可在Raspberry Pi 4或5上无需GPU实时运行。

  • 架构: 带有ONNX推理的VITS神经TTS。专为单板计算机和嵌入式Linux设计。
  • 安装: pip install piper-tts。预训练语音包可在Hugging Face的Piper voices存储库获取。
  • 使用: echo "你好,世界" | piper --model zh_CN-huayan-medium.onnx --output_file output.wav
  • 语音包: 20+种语言,每种语言多个语音选项。每个语音包是20〜200 MB的ONNX模型文件。
  • 速度: 在现代桌面CPU上约为实时速度的10倍。在Raspberry Pi 5上实时运行。首次音频延迟低于50ms。
  • Apple Silicon: 在M5 Pro(CPU,ARM NEON)上约为实时速度的15倍。无需GPU原生运行 — 在Mac上性能出色。
  • 收听示例: Piper语音示例
  • 最适合: 家庭助手、信息亭设备、嵌入式语音界面、无GPU可用时注重隐私的朗读场景。
  • 限制: 无声音克隆。质量"良好" — 听起来自然,但与XTTS v2或StyleTTS 2相比明显是合成音。
  • 许可证: MIT — 完全商业化,无限制。
  • Kokoro TTS — Piper的替代品: Kokoro TTS是轻量级类别中Piper的新兴替代品。它在CPU上保持快速的同时实现比Piper更高的自然度。采用Apache 2.0许可证。如果Piper的质量不能满足您的需求,但您无法负担GPU VRAM,Kokoro值得测试。

Coqui TTS — 最佳开源全能工具包

Coqui TTS是一个支持多种模型架构和声音克隆的Python文字转语音工具包。 由Coqui公司开发(2024年1月已停止运营),现由开源社区维护。该工具包支持Tacotron2、VITS和XTTS后端。

  • 安装: pip install TTS。模型在首次使用时自动下载。
  • 声音克隆: 提供6秒以上的参考音频。tts --text "你好" --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --speaker_wav sample.wav --out_path output.wav
  • 后端选项: VITS(最快,质量良好)、Tacotron2(较旧,较慢)、XTTS(最佳质量,参见XTTS v2部分)。
  • 语言: 通过tts --list_models可获取20+语言模型。
  • VRAM: VITS后端2〜4 GB;XTTS后端4〜6 GB。
  • Apple Silicon: 在M5 Pro(CPU)上约为实时速度的8倍。无Metal GPU加速。可用于批量生成。
  • 社区状态: Coqui公司于2024年1月关闭。开源仓库(coqui-ai/TTS)由社区维护。无活跃商业支持。
  • 许可证: MPL 2.0 — 允许商业使用,但必须披露修改的源代码。
  • 最适合: 希望使用开源工具包和宽松许可证进行声音克隆的开发者。

XTTS v2 — 最佳声音克隆质量

XTTS v2(由Coqui开发)是2026年本地可用的最高质量声音克隆引擎。 它使用具有跨语言迁移的GPT架构 — 用英语克隆一个声音,并用同样的6秒音频以西班牙语、德语、法语或其他14种语言说话。

  • 架构: 带有说话人条件的GPT TTS。用于韵律建模的视觉变换器。
  • 声音克隆: 6秒参考音频即可产生令人信服的声音克隆。3秒可产生可接受的质量。
  • 跨语言克隆: 用一种语言克隆声音,用相同的声音特征生成17种不同语言的语音。
  • 语言(17种): 英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文(zh-cn)、日语、匈牙利语、韩语和印地语。韩语和印地语在XTTS v2.0.3中加入。
  • 「XTTS v2的声音」: 没有固定的命名声音目录。XTTS v2是克隆模型 — 你提供一段6秒参考音频,它便复现该说话人。仓库附带少量内置说话人预设供快速测试,但预期的工作流是提供你自己的speaker_wav
  • VRAM: 模型权重约2 GB。实际最低4 GB VRAM;实时推理推荐4〜6 GB。可在CPU上运行但约慢5〜10倍。
  • 速度: 慢 — 在RTX 4070上约以实时速度的2倍生成。不适合实时语音助手管道。
  • Apple Silicon: 在M5 Pro(CPU,无Metal加速)上约为实时速度的3倍。可用于批量音频生成,不适合实时语音助手输出。
  • 收听示例: Hugging Face上的XTTS v2演示
  • 许可证: CPML(Coqui Public Model License) — 非商用。CPML允许对模型及其音频输出进行个人、研究和爱好用途,但未经单独的商业协议禁止商业使用(任何付费产品、SaaS、广告支持内容或客户工作)。Coqui Inc于2024年1月关闭,因此目前没有任何实体出售XTTS v2商业许可证 — 实际上请将XTTS v2视为仅限非商用。COQUI_TOS_AGREED环境变量参见CPML非交互式接受章节。
python
from TTS.api import TTS

# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
    text="Bonjour, je suis votre assistant vocal.",
    speaker_wav="reference_voice.wav",   # 6+ seconds of the target speaker
    language="fr",                        # Output in French using the cloned voice
    file_path="output.wav"
)

⚠️Warning: XTTS v2受CPML(非商用)许可证约束。商业使用 — 产品、SaaS、服务或付费客户工作 — 需要单独的商业协议,而自Coqui Inc于2024年1月关闭后,目前已无此类协议可购买。如需商业声音克隆,请使用Tortoise(Apache 2.0)或基于VITS后端的Coqui TTS工具包(MPL 2.0)。本文为事实参考,非法律意见 — 部署前请自行阅读CPML。

Bark — 超越语音的生成式音频

Bark(由Suno AI开发)是一个生成式文字转音频模型,可从文本提示生成语音、音乐、笑声、咳嗽、叹息和环境声音。 它不是传统的TTS引擎 — 而是将文本提示解释为音频生成指令的生成模型。

  • 独特功能: 在文本中加入`[laughs][sighs][clears throat][music][sound effect: wind]`,Bark会在语音旁边生成这些声音。
  • 不像传统TTS那样可控: 相同输入的输出在不同运行之间会有变化。质量不一致 — 有些输出出色,有些有噪音或难以理解的片段。
  • 速度: 慢 — 即使在RTX 4090上也比实时速度慢2〜4倍。不适合交互式应用程序。
  • Apple Silicon: 在M5 Pro(CPU,MPS部分)上约为实时速度的1.5倍。MPS(Metal Performance Shaders)支持不完整 — 大多数推理仍回退到CPU。
  • 最适合: 创意音频、带音效的播客制作、互动小说、实验性语音应用程序。
  • VRAM: 4〜8 GB GPU。在CPU上运行质量明显较低。
  • 安装: pip install suno-bark。模型在首次运行时下载(约2 GB)。
  • 许可证: MIT — 完全商业化。
  • 限制: 无可靠的声音克隆。Bark附带的"语音预设"是近似的 — 不是真正的声音克隆系统。

StyleTTS 2 — 最高自然质量

StyleTTS 2是一个基于扩散的TTS模型,在LJSpeech基准测试上达到接近人类的MOS(平均意见得分)。 它使用扩散进行说话风格迁移 — 生成比基于VITS的模型更自然、更富表现力的语音。

  • 架构: 基于扩散的风格迁移。从学习到的说话风格分布中采样,而不是将文本确定性地映射到音频。
  • 质量: 在LJSpeech基准测试中,所有开源英语TTS引擎中MOS分数最高。
  • 最适合: 有声书朗读、专业配音、播客制作。
  • 安装: 克隆GitHub仓库,安装要求(pip install -r requirements.txt),下载模型检查点(约500 MB)。
  • 语言支持: 主要是英语。不建议用于非英语场景。
  • 声音克隆: 不支持。StyleTTS 2只使用训练的说话人声音生成。
  • VRAM: 2〜4 GB GPU。在RTX 4070上约为实时速度的5〜8倍,比XTTS v2更快。
  • Apple Silicon: 在M5 Pro(CPU)上约为实时速度的6倍。无Metal加速。
  • 许可证: MIT — 完全商业化。

F5-TTS — 零样本声音克隆,完全开放

F5-TTS是一个具有零样本声音克隆的流匹配TTS模型 — 无需微调,从约3秒参考音频克隆任何声音。

  • 架构: 流匹配(扩散变体方法),而非XTTS v2使用的GPT架构。通常以更快的推理速度实现具有竞争力的质量。
  • 声音克隆: 约3秒参考音频即可。不需要微调。
  • 质量: 在英语上与XTTS v2具有竞争力。社区评估中MOS分数约4.1。
  • 速度: 在RTX 4070上约为实时速度的3〜5倍 — 比XTTS v2更快。
  • 语言: 对英语和中文有强力支持,对其他语言的支持正在扩展。
  • Apple Silicon: 在M5 Pro(CPU)上约为实时速度的2倍。目前无Metal加速。
  • VRAM: 建议3〜5 GB GPU。
  • 安装: pip install f5-tts或从GitHub克隆。
  • 许可证: CC-BY-NC-4.0 — 仅非商业使用。商业使用需要单独协议。

许可证与商业使用 — 我能商用这款TTS引擎吗?

许可证是生产使用中最重要的单一因素,它把这些引擎清晰地分成两类。宽松许可证的引擎(MIT、Apache 2.0)可以自由地装入商业产品发布。受限引擎(CPML、CC-BY-NC-4.0)为非商用 — 将其用于付费产品、SaaS、广告支持内容或客户工作需要单独的协议。下表给出每款引擎的确切许可证及直接的「我能商用吗?」答案。

📍 简单一句话

在商业产品中使用本地TTS:Piper、Bark、StyleTTS 2(MIT)、Kokoro和Tortoise(Apache 2.0),以及基于VITS/Tacotron2后端的Coqui TTS工具包(MPL 2.0)均被允许;XTTS v2(CPML)和F5-TTS(CC-BY-NC-4.0)为非商用。

💬 简单来说

两款最受欢迎的声音克隆模型 — XTTS v2和F5-TTS — 未经单独许可证不能商用。商业声音克隆请选择Tortoise(Apache 2.0)或基于VITS后端的Coqui工具包(MPL 2.0)。

工具许可证商业使用?主要条件
PiperMIT是 — 无限制包含MIT声明;检查每个语音模型的许可证
KokoroApache 2.0是 — 无限制包含Apache 2.0声明
Coqui TTS(工具包)MPL 2.0是 — 有条件披露对工具包文件的任何修改的源代码
XTTS v2(模型)CPML否 — 非商用商用需协议;自Coqui关闭(2024年1月)后无协议可售
F5-TTSCC-BY-NC-4.0否 — 非商用非商用限制延续至微调(Emilia训练数据)
BarkMIT是 — 无限制包含MIT版权声明
StyleTTS 2MIT是 — 无限制包含MIT版权声明
TortoiseApache 2.0是 — 无限制署名;对任何克隆声音取得同意

📌Note: Coqui TTS(工具包,MPL 2.0)和XTTS v2(特定模型权重,CPML)的许可证不同。您可以在商业产品中使用基于VITS或Tacotron2后端的Coqui TTS工具包(MPL 2.0)。CPML非商用限制专门适用于XTTS v2模型权重及其音频输出 — 而非工具包代码。

⚠️Warning: 本文为事实参考,非法律意见。许可证会变更,边缘情形(声音同意、数据集条款、每个语音模型的许可证)也很重要。商业部署前请自行阅读每款引擎的许可证文件,并咨询律师。

非交互式接受CPML(COQUI_TOS_AGREED)

首次加载受CPML约束的XTTS / Coqui模型时,库会打印许可证条款并等待你输入「y」以接受。该交互式提示会在Docker构建、CI管道和无头服务器中卡住。要非交互式接受CPML,请将COQUI_TOS_AGREED环境变量设为1 — 这会记录你在模型加载前已阅读并同意Coqui Public Model License。它不会改变许可证:CPML仍为非商用,设置该变量是你对这些条款的同意,而非对它们的豁免。

📍 简单一句话

设置环境变量COQUI_TOS_AGREED=1,即可在Docker、CI或任何无头环境中无需交互式提示地接受Coqui Public Model License(CPML)。

💬 简单来说

在shell或Dockerfile中使用export COQUI_TOS_AGREED=1;在Python中于导入或加载模型前设置`os.environ["COQUI_TOS_AGREED"] = "1"`。两种方式都能让模型加载时无需等待键盘输入。

  • Shell / CI: 运行脚本前执行export COQUI_TOS_AGREED=1
  • Docker: 在Dockerfile中加入ENV COQUI_TOS_AGREED=1,或向docker run传入-e COQUI_TOS_AGREED=1
  • Python(在模型加载前设置): `import os; os.environ["COQUI_TOS_AGREED"] = "1" — 必须在TTS(...)`实例化XTTS模型之前运行。
  • 它的作用: 记录对CPML的非交互式接受,使模型加载不会卡在y/n提示上。它不是商业许可证,也不会移除非商用限制。
python
# 1) Shell / CI — accept the CPML once for the session
export COQUI_TOS_AGREED=1

# 2) Dockerfile — bake acceptance into the image
# ENV COQUI_TOS_AGREED=1

# 3) Python — set it before the model is created
import os
os.environ["COQUI_TOS_AGREED"] = "1"   # must be set BEFORE the TTS() call below

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Model now loads without the interactive license prompt

⚠️Warning: COQUI_TOS_AGREED=1仅抑制交互式提示 — 它是你对CPML的接受,而CPML仍为非商用许可证。它不会授予XTTS v2的商业权利。

本地TTS与ElevenLabs和云端TTS的比较

ElevenLabs、Google Text-to-Speech和Azure Speech在2026年仍是TTS的质量上限。

  • 质量上限: ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper。
  • 延迟: 本地Piper(首次音频30〜50 ms)比任何ElevenLabs API往返(300〜500 ms)都快。
  • 成本: ElevenLabs按套餐收费5〜99美元/月。本地TTS在一次性硬件后成本为0美元。
  • 声音克隆: ElevenLabs Instant Voice Clone ≈ XTTS v2质量。ElevenLabs Professional Voice Clone超过任何本地引擎。
  • 隐私: 本地TTS = 音频数据不发送到任何地方。ElevenLabs = 音频在其服务器上处理。
  • 离线能力: 本地 = 完全离线。ElevenLabs = 需要互联网。
  • 何时使用云端: 专业配音制作、需要最高质量的面向客户产品。
  • 何时使用本地: 隐私敏感音频、嵌入式设备、成本敏感的批量处理、离线环境。

如何选择

从您的需求到正确TTS引擎的决策流程:

📍 简单一句话

需要声音克隆?→ XTTS v2(最佳质量)或F5-TTS(更快,新架构)或Coqui TTS(开放许可证)。需要CPU速度?→ Piper。需要创意音频?→ Bark。需要最佳英语质量?→ StyleTTS 2。

💬 简单来说

声音克隆:质量选XTTS v2,速度选F5-TTS,宽松许可证选Coqui VITS。CPU/Raspberry Pi:仅Piper。播客音效:Bark。英语有声书:StyleTTS 2。

  • 需要声音克隆? → XTTS v2(最佳质量,CPML)或F5-TTS(新架构,更快,CC-BY-NC-4.0)或Coqui VITS(良好质量,MPL 2.0)。不需要克隆:Piper(速度)或StyleTTS 2(质量)。
  • 需要仅CPU / Raspberry Pi? → 仅Piper。Kokoro是更高质量的CPU替代品(Apache 2.0)。所有其他引擎都需要GPU。
  • 需要带有非语音声音的创意音频? → Bark。没有其他本地引擎能原生产生笑声、叹息或音乐。
  • 需要最佳英语朗读质量? → StyleTTS 2。
  • 需要多语言支持? → XTTS v2(17种语言),Coqui(20+),Piper(20+语音包)。
  • 需要完全商业化的MIT许可证? → Piper、Bark或StyleTTS 2。
  • 构建语音助手管道? → 使用Piper实现低延迟TTS输出。

常见问题

使用XTTS v2进行声音克隆需要多少参考音频?

XTTS v2需要至少3秒的干净参考音频,6+秒会得到明显更好的效果。音频必须是单个扬声器,背景噪声和音乐最少。高质量的源材料比压缩音频产生更好的克隆。

我可以在商业产品中使用Piper TTS吗?

可以。Piper在MIT许可证下授权,允许无限制的商业使用。您必须在产品中包含MIT许可证声明。语音模型(ONNX文件)可能具有单个语音的单独许可证。

哪个本地TTS引擎具有最佳的多语言支持?

XTTS v2支持17种语言的多语言声音克隆——所有本地引擎中最令人印象深刻的多语言功能。Coqui TTS拥有20+种语言模型但缺乏多语言克隆。Piper为快速CPU推理拥有20+种语言语音包。

哪个本地TTS引擎听起来最像人类?

英文叙述方面StyleTTS 2最佳——它达到所有开源英文TTS引擎的最高MOS分数(~4.3 对人类参考 ~4.5)。XTTS v2和F5-TTS在克隆语音自然度方面有竞争力(~4.1)。

我可以商用XTTS v2吗?

不可以,除非有单独的商业协议。XTTS v2在Coqui Public Model License(CPML)下发布,CPML允许对模型及其音频输出进行个人、研究和爱好用途,但禁止商业使用 — 任何付费产品、SaaS、广告支持内容或客户工作。Coqui Inc于2024年1月关闭,因此目前没有任何实体出售XTTS v2商业许可证;实际上请将XTTS v2视为仅限非商用。商业声音克隆请使用Tortoise(Apache 2.0)或基于VITS后端的Coqui TTS工具包(MPL 2.0)。本文为事实参考,非法律意见 — 部署前请自行阅读CPML。

如何非交互式地接受Coqui CPML许可证(Docker / CI)?

将环境变量COQUI_TOS_AGREED设为1。Coqui/XTTS库通常会打印CPML并等待你输入「y」,这会在Docker构建、CI和无头服务器中卡住。设置COQUI_TOS_AGREED=1会记录你的接受,使模型加载时无需提示。在shell或CI步骤中使用export COQUI_TOS_AGREED=1,在Dockerfile中使用ENV COQUI_TOS_AGREED=1,或在Python中于TTS()调用前使用`os.environ["COQUI_TOS_AGREED"] = "1"`。它仅抑制提示 — 它是你对CPML的同意,并不授予商业权利。

XTTS v2支持多少声音和语言?

XTTS v2没有固定的命名声音目录 — 它是克隆模型,你提供一段6秒参考音频,它便复现该说话人(仓库也附带少量内置说话人预设供快速测试)。它能生成17种语言的语音:英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文(zh-cn)、日语、匈牙利语、韩语和印地语。克隆是跨语言的:克隆一次声音即可用17种语言中的任意一种生成。

Kokoro与Piper — 该用哪款轻量级CPU TTS?

两者都在CPU上无需GPU快速运行,且都采用宽松许可证(Piper为MIT,Kokoro为Apache 2.0),因此都可安全商用。当你需要最低延迟和最广的语言覆盖(20+种语言语音包,在Raspberry Pi 5上实时)时选Piper — 它是嵌入式和智能家居语音的标准。当你想要比Piper更高的自然度、且能接受略多的算力时选Kokoro(一个基于StyleTTS 2架构构建的82M参数模型);其英语质量更接近较重的GPU引擎。Raspberry Pi或常驻助手用Piper;质量比毫秒更重要的桌面/服务器朗读用Kokoro。

参考资源

繁體中文TTS指南:台灣與香港的本地語音合成選擇

普通話(Mandarin)文字轉語音是XTTS v2最成熟的非英語能力之一。對於台灣和香港用戶,選擇支援繁體中文輸入的TTS引擎至關重要——大多數中文TTS預設以簡體字訓練,繁體字處理需要額外設定。

台灣本地有幾個值得關注的TTS項目:由成功大學、交通大學等機構開發的中文語音合成研究成果,以及部分開源的台語(Taiwanese Hokkien)TTS實驗項目,這些都是雲端TTS服務無法替代的本地資源。

  • XTTS v2繁體中文設定: 語言代碼使用zh-cn(XTTS v2目前不區分繁簡,但輸入繁體字可正確發音)。建議在提示詞中加入「請使用台灣國語腔調」以獲得更接近台灣口音的輸出。
  • Coqui TTS中文模型: Coqui提供tts_models/zh-CN/baker/tacotron2-DDC作為基礎中文TTS。Baker語料庫以女聲普通話為主,品質穩定但音色單一。適合需要穩定輸出的商業用途。
  • 聲音克隆(Voice Cloning)注意事項: 台灣和香港均受個人資料保護法規管轄(台灣個資法、香港《個人資料(私隱)條例》)。使用他人聲音進行克隆需取得明確同意。用於教育、無障礙服務的自身聲音克隆不受此限制。
  • 台語(Taiwanese)TTS現況: 目前無成熟的本地台語TTS方案。國立臺灣大學的TWNTTS研究項目持續進行中,但尚未有可直接部署的版本。普通話TTS是目前唯一實用選項。
  • 硬體建議(台灣市場): MacBook M系列(M1/M2/M3/M4)是台灣開發者主流。XTTS v2在M2 Pro 16GB RAM上可實時執行,無需GPU外接卡。NVIDIA GPU用戶(RTX 3060以上)可使用CUDA加速版本。

← 返回 本地LLM进阶