本地TTS声音克隆许可证2026：商业使用

本地文字转语音引擎能否用于商业产品？这完全取决于许可证，而各引擎的许可证差异很大。Piper、Bark和StyleTTS 2采用MIT许可证，Kokoro和Tortoise采用Apache 2.0 — 四者均可免费商用。Coqui TTS工具包为MPL 2.0（商用有条件）。但两款最受欢迎的声音克隆模型受限：XTTS v2采用Coqui Public Model License（CPML，非商用），F5-TTS采用CC-BY-NC-4.0（非商用）。本指南给出每款引擎的确切许可证、明确的「能否商用？」答案、用于在Docker和CI中非交互式接受CPML的COQUI_TOS_AGREED环境变量，以及质量、速度、VRAM和声音克隆的逐项对比 — 让你无需将音频发送到云端、也不会在生产环境中遇到许可证意外，即可选对引擎。（许可证已于2026年6月核实；本文为事实参考，非法律意见 — 商用前请自行阅读各许可证。）

关键要点

Piper是速度和嵌入式应用的最佳选择。 完全在CPU上运行，在Raspberry Pi 5上生成实时语音，通过可下载的语音包支持20+种语言。无GPU、无Python复杂性、MIT许可证。
XTTS v2是2026年本地声音克隆的最佳选择 — 但它是非商用的。 输入6秒参考音频，它就能在17种语言中克隆声音（4–6 GB GPU VRAM）。CPML许可证为非商用，且自Coqui于2024年1月关闭后已无商业许可证可售 — 请将XTTS v2视为仅限非商用。在Docker/CI中用COQUI_TOS_AGREED=1非交互式接受CPML。
F5-TTS是零样本声音克隆领域快速增长的替代方案。 它采用流匹配架构而非GPT，从~3秒参考音频克隆声音，实现与XTTS v2相当的质量但推理速度更快。许可证：CC-BY-NC-4.0（仅非商业）。
Coqui TTS是最灵活的开源TTS工具包。 它支持多个后端（Tacotron2、VITS、XTTS）、声音克隆和20+种语言，采用MPL 2.0许可证。注：Coqui公司于2024年1月关闭；该项目现由社区维护。
Bark是唯一生成非语音音频的本地TTS。 它可以在语音旁边生成笑声、咳嗽、叹气、音乐片段和环境声——适用于创意音频、播客制作和交互式小说。
StyleTTS 2达到所有开源英文TTS引擎中最高的MOS（平均意见得分）。 其基于扩散的风格转移为英文叙述产生接近人类的自然效果。仅支持英文，无声音克隆。
许可证决定商业使用 — 且界限清晰。 可免费商用：Piper、Bark、StyleTTS 2（MIT）以及Kokoro、Tortoise（Apache 2.0）。商用有条件：Coqui TTS工具包（MPL 2.0，须披露对工具包的修改）。仅限非商用：XTTS v2（CPML）和F5-TTS（CC-BY-NC-4.0） — 两者均需单独协议。商业声音克隆请用Tortoise（Apache 2.0）或基于VITS后端的Coqui工具包（MPL 2.0）。本文为事实参考，非法律意见。
都无法与大规模商业TTS质量相媲美。 ElevenLabs、Google Text-to-Speech和Azure Speech在一致性、自然度和延迟方面仍然超过所有本地引擎。当隐私、成本或离线操作比绝对质量更重要时，本地TTS是正确选择。

快速概览

最快的本地TTS： Piper — 在Raspberry Pi 5上实时运行，在现代桌面CPU上约为实时速度的10倍。
最佳声音克隆质量： XTTS v2 — 6秒参考音频，支持17种语言的跨语言克隆。
最快的零样本声音克隆（新架构）： F5-TTS — 约3秒音频，流匹配，在RTX 4070上约为实时速度的3〜5倍。
最灵活的开源工具包： Coqui TTS — 支持VITS、Tacotron2、XTTS后端，20+语言模型。
唯一的生成式音频（非语音声音）： Bark — 笑声、叹气、音乐、环境声。所有引擎中最慢。
最佳英语朗读质量： StyleTTS 2 — 基于扩散的风格转移，在LJSpeech基准测试中接近人类MOS。
可免费商用： Piper、Bark、StyleTTS 2（MIT）；Kokoro、Tortoise（Apache 2.0）；Coqui TTS工具包（MPL 2.0，有条件）。非商用： XTTS v2（CPML）、F5-TTS（CC-BY-NC-4.0）。
XTTS v2的声音与语言： 无固定声音列表 — 你提供一段6秒参考音频，它便克隆该声音。模型附带内置说话人预设，并能生成17种语言：en、es、fr、de、it、pt、pl、tr、ru、nl、cs、ar、zh-cn、ja、hu、ko、hi。
XTTS v2 VRAM： 模型权重约2 GB；运行最低4 GB，实时推理推荐4–6 GB。
在CI/Docker中接受CPML： export COQUI_TOS_AGREED=1 — 无需交互式提示。
VRAM要求： Piper：仅CPU。Kokoro：CPU / 1〜2 GB。StyleTTS 2：2〜4 GB。Coqui VITS：2〜4 GB。F5-TTS：3〜5 GB。XTTS v2：4〜6 GB。Bark：4〜8 GB。Tortoise：4〜8 GB。

为什么本地TTS很重要

云端TTS服务（ElevenLabs、Google TTS、Amazon Polly、Azure Speech）使用方便，但存在按字符计费、音频数据保留策略以及网络往返延迟等问题。本地TTS消除了所有这三个问题。

隐私： 您的文本内容永远不会离开您的设备。对医疗口述、法律摘要、私人日记朗读或机密文件读取至关重要。
成本： 云端TTS定价通常为每百万字符4〜30美元。每月生成1000万字符的开发者通过一次性本地部署每月可节省40〜300美元。
延迟： 无网络往返。Piper在CPU上50ms内生成第一个音频令牌 — 比任何云端TTS往返都快。
自定义： 声音克隆（XTTS v2、F5-TTS、Coqui）允许您从几秒钟的音频创建自定义声音。云提供商每个克隆声音收取10美元以上/月。
离线操作： 在飞机上、安全设施中、没有互联网的偏远地区均可工作。适用于信息亭和设备的嵌入式语音界面。
智能家居： Piper是常驻本地语音界面的主流TTS层，在Raspberry Pi上实时运行，无需GPU。要了解集成到Home Assistant的完整离线语音助手，请参阅智能家居本地语音助手 →。

对比表

所有本地TTS引擎按照生产部署最重要的指标进行比较。

📍 简单一句话

Piper在CPU上最快；XTTS v2提供最佳声音克隆质量；F5-TTS通过更新的架构提供零样本克隆；Bark是唯一能产生笑声和音乐的引擎；StyleTTS 2具有最佳的英语朗读自然度。

💬 简单来说

对于大多数离线TTS需求：速度和简洁性选Piper，宽松许可证的声音克隆选Coqui，有GPU的最佳克隆质量选XTTS v2，更快零样本克隆的新架构选F5-TTS。

工具	质量	速度	声音克隆	多语言	VRAM	许可证	MOS（英语）
Piper	良好	非常快（CPU）	否	是（20+语言）	仅CPU	MIT	~3.5
Kokoro	很好	快（CPU）	否	英语 + 扩展中	CPU / 1〜2 GB	Apache 2.0	~4.0
Coqui TTS	很好	中等	是	是（20+语言）	2〜4 GB	MPL 2.0	~3.8
XTTS v2	优秀	慢	是（最佳）	是（17种语言）	4〜6 GB	CPML（非商用）	~4.1
F5-TTS	优秀	中快	是（零样本）	是（多语言）	3〜5 GB	CC-BY-NC-4.0	~4.1
Bark	独特 / 可变	慢	有限	是（多语言）	4〜8 GB	MIT	~3.2〜4.0（可变）
StyleTTS 2	优秀（英语）	中等	否	主要英语	2〜4 GB	MIT	~4.3
Tortoise	优秀	非常慢（每句数分钟）	是	主要英语	4〜8 GB	Apache 2.0	~4.2

MOS（平均意见得分）在1〜5的量表上，5表示与人类语音无法区分。分数是近似值，基于已发布的基准测试或社区评估。MOS因测试句子和听众群体而有显著差异。人类参考MOS：约4.5。

首次音频延迟比较

首次音频延迟是从文本输入到第一个可听输出的时间。对于语音助手和交互式应用程序至关重要。对于批处理（有声书、播客制作），总吞吐量比首次音频延迟更重要。

引擎	首次音频（RTX 4070）	首次音频（CPU）	首次音频（M5 Pro）
Piper	~30 ms	~50 ms	~40 ms
Kokoro	~50 ms	~80 ms	~60 ms
Coqui VITS	~100 ms	~300 ms	~150 ms
StyleTTS 2	~150 ms	~500 ms	~200 ms
F5-TTS	~200 ms	~800 ms	~300 ms
XTTS v2	~300 ms	~1500 ms	~500 ms
Bark	~500 ms	~3000 ms	~800 ms

Piper TTS — 最快的轻量级选项

Piper是由Rhasspy为家庭自动化和嵌入式应用开发的快速本地TTS系统。 它使用基于VITS的神经架构，通过onnxruntime后端在语音数据集上训练 — 经过优化，可在Raspberry Pi 4或5上无需GPU实时运行。

架构： 带有ONNX推理的VITS神经TTS。专为单板计算机和嵌入式Linux设计。
安装： pip install piper-tts。预训练语音包可在Hugging Face的Piper voices存储库获取。
使用： echo "你好，世界" | piper --model zh_CN-huayan-medium.onnx --output_file output.wav
语音包： 20+种语言，每种语言多个语音选项。每个语音包是20〜200 MB的ONNX模型文件。
速度： 在现代桌面CPU上约为实时速度的10倍。在Raspberry Pi 5上实时运行。首次音频延迟低于50ms。
Apple Silicon： 在M5 Pro（CPU，ARM NEON）上约为实时速度的15倍。无需GPU原生运行 — 在Mac上性能出色。
收听示例： Piper语音示例
最适合： 家庭助手、信息亭设备、嵌入式语音界面、无GPU可用时注重隐私的朗读场景。
限制： 无声音克隆。质量"良好" — 听起来自然，但与XTTS v2或StyleTTS 2相比明显是合成音。
许可证： MIT — 完全商业化，无限制。
Kokoro TTS — Piper的替代品： Kokoro TTS是轻量级类别中Piper的新兴替代品。它在CPU上保持快速的同时实现比Piper更高的自然度。采用Apache 2.0许可证。如果Piper的质量不能满足您的需求，但您无法负担GPU VRAM，Kokoro值得测试。

Coqui TTS — 最佳开源全能工具包

Coqui TTS是一个支持多种模型架构和声音克隆的Python文字转语音工具包。 由Coqui公司开发（2024年1月已停止运营），现由开源社区维护。该工具包支持Tacotron2、VITS和XTTS后端。

安装： pip install TTS。模型在首次使用时自动下载。
声音克隆： 提供6秒以上的参考音频。tts --text "你好" --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --speaker_wav sample.wav --out_path output.wav
后端选项： VITS（最快，质量良好）、Tacotron2（较旧，较慢）、XTTS（最佳质量，参见XTTS v2部分）。
语言： 通过tts --list_models可获取20+语言模型。
VRAM： VITS后端2〜4 GB；XTTS后端4〜6 GB。
Apple Silicon： 在M5 Pro（CPU）上约为实时速度的8倍。无Metal GPU加速。可用于批量生成。
社区状态： Coqui公司于2024年1月关闭。开源仓库（coqui-ai/TTS）由社区维护。无活跃商业支持。
许可证： MPL 2.0 — 允许商业使用，但必须披露修改的源代码。
最适合： 希望使用开源工具包和宽松许可证进行声音克隆的开发者。

XTTS v2 — 最佳声音克隆质量

XTTS v2（由Coqui开发）是2026年本地可用的最高质量声音克隆引擎。 它使用具有跨语言迁移的GPT架构 — 用英语克隆一个声音，并用同样的6秒音频以西班牙语、德语、法语或其他14种语言说话。

架构： 带有说话人条件的GPT TTS。用于韵律建模的视觉变换器。
声音克隆： 6秒参考音频即可产生令人信服的声音克隆。3秒可产生可接受的质量。
跨语言克隆： 用一种语言克隆声音，用相同的声音特征生成17种不同语言的语音。
语言（17种）： 英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文（zh-cn）、日语、匈牙利语、韩语和印地语。韩语和印地语在XTTS v2.0.3中加入。
「XTTS v2的声音」： 没有固定的命名声音目录。XTTS v2是克隆模型 — 你提供一段6秒参考音频，它便复现该说话人。仓库附带少量内置说话人预设供快速测试，但预期的工作流是提供你自己的speaker_wav。
VRAM： 模型权重约2 GB。实际最低4 GB VRAM；实时推理推荐4〜6 GB。可在CPU上运行但约慢5〜10倍。
速度： 慢 — 在RTX 4070上约以实时速度的2倍生成。不适合实时语音助手管道。
Apple Silicon： 在M5 Pro（CPU，无Metal加速）上约为实时速度的3倍。可用于批量音频生成，不适合实时语音助手输出。
收听示例： Hugging Face上的XTTS v2演示
许可证： CPML（Coqui Public Model License） — 非商用。CPML允许对模型及其音频输出进行个人、研究和爱好用途，但未经单独的商业协议禁止商业使用（任何付费产品、SaaS、广告支持内容或客户工作）。Coqui Inc于2024年1月关闭，因此目前没有任何实体出售XTTS v2商业许可证 — 实际上请将XTTS v2视为仅限非商用。COQUI_TOS_AGREED环境变量参见CPML非交互式接受章节。

python

from TTS.api import TTS

# Load XTTS v2 model
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Clone voice from 6-second reference audio and synthesize in any of 17 languages
tts.tts_to_file(
    text="Bonjour, je suis votre assistant vocal.",
    speaker_wav="reference_voice.wav",   # 6+ seconds of the target speaker
    language="fr",                        # Output in French using the cloned voice
    file_path="output.wav"
)

⚠️Warning: XTTS v2受CPML（非商用）许可证约束。商业使用 — 产品、SaaS、服务或付费客户工作 — 需要单独的商业协议，而自Coqui Inc于2024年1月关闭后，目前已无此类协议可购买。如需商业声音克隆，请使用Tortoise（Apache 2.0）或基于VITS后端的Coqui TTS工具包（MPL 2.0）。本文为事实参考，非法律意见 — 部署前请自行阅读CPML。

Bark — 超越语音的生成式音频

Bark（由Suno AI开发）是一个生成式文字转音频模型，可从文本提示生成语音、音乐、笑声、咳嗽、叹息和环境声音。 它不是传统的TTS引擎 — 而是将文本提示解释为音频生成指令的生成模型。

独特功能： 在文本中加入`[laughs]、[sighs]、[clears throat]、[music]或[sound effect: wind]`，Bark会在语音旁边生成这些声音。
不像传统TTS那样可控： 相同输入的输出在不同运行之间会有变化。质量不一致 — 有些输出出色，有些有噪音或难以理解的片段。
速度： 慢 — 即使在RTX 4090上也比实时速度慢2〜4倍。不适合交互式应用程序。
Apple Silicon： 在M5 Pro（CPU，MPS部分）上约为实时速度的1.5倍。MPS（Metal Performance Shaders）支持不完整 — 大多数推理仍回退到CPU。
最适合： 创意音频、带音效的播客制作、互动小说、实验性语音应用程序。
VRAM： 4〜8 GB GPU。在CPU上运行质量明显较低。
安装： pip install suno-bark。模型在首次运行时下载（约2 GB）。
许可证： MIT — 完全商业化。
限制： 无可靠的声音克隆。Bark附带的"语音预设"是近似的 — 不是真正的声音克隆系统。

StyleTTS 2 — 最高自然质量

StyleTTS 2是一个基于扩散的TTS模型，在LJSpeech基准测试上达到接近人类的MOS（平均意见得分）。 它使用扩散进行说话风格迁移 — 生成比基于VITS的模型更自然、更富表现力的语音。

架构： 基于扩散的风格迁移。从学习到的说话风格分布中采样，而不是将文本确定性地映射到音频。
质量： 在LJSpeech基准测试中，所有开源英语TTS引擎中MOS分数最高。
最适合： 有声书朗读、专业配音、播客制作。
安装： 克隆GitHub仓库，安装要求（pip install -r requirements.txt），下载模型检查点（约500 MB）。
语言支持： 主要是英语。不建议用于非英语场景。
声音克隆： 不支持。StyleTTS 2只使用训练的说话人声音生成。
VRAM： 2〜4 GB GPU。在RTX 4070上约为实时速度的5〜8倍，比XTTS v2更快。
Apple Silicon： 在M5 Pro（CPU）上约为实时速度的6倍。无Metal加速。
许可证： MIT — 完全商业化。

F5-TTS — 零样本声音克隆，完全开放

F5-TTS是一个具有零样本声音克隆的流匹配TTS模型 — 无需微调，从约3秒参考音频克隆任何声音。

架构： 流匹配（扩散变体方法），而非XTTS v2使用的GPT架构。通常以更快的推理速度实现具有竞争力的质量。
声音克隆： 约3秒参考音频即可。不需要微调。
质量： 在英语上与XTTS v2具有竞争力。社区评估中MOS分数约4.1。
速度： 在RTX 4070上约为实时速度的3〜5倍 — 比XTTS v2更快。
语言： 对英语和中文有强力支持，对其他语言的支持正在扩展。
Apple Silicon： 在M5 Pro（CPU）上约为实时速度的2倍。目前无Metal加速。
VRAM： 建议3〜5 GB GPU。
安装： pip install f5-tts或从GitHub克隆。
许可证： CC-BY-NC-4.0 — 仅非商业使用。商业使用需要单独协议。

许可证与商业使用 — 我能商用这款TTS引擎吗？

许可证是生产使用中最重要的单一因素，它把这些引擎清晰地分成两类。宽松许可证的引擎（MIT、Apache 2.0）可以自由地装入商业产品发布。受限引擎（CPML、CC-BY-NC-4.0）为非商用 — 将其用于付费产品、SaaS、广告支持内容或客户工作需要单独的协议。下表给出每款引擎的确切许可证及直接的「我能商用吗？」答案。

📍 简单一句话

在商业产品中使用本地TTS：Piper、Bark、StyleTTS 2（MIT）、Kokoro和Tortoise（Apache 2.0），以及基于VITS/Tacotron2后端的Coqui TTS工具包（MPL 2.0）均被允许；XTTS v2（CPML）和F5-TTS（CC-BY-NC-4.0）为非商用。

💬 简单来说

两款最受欢迎的声音克隆模型 — XTTS v2和F5-TTS — 未经单独许可证不能商用。商业声音克隆请选择Tortoise（Apache 2.0）或基于VITS后端的Coqui工具包（MPL 2.0）。

工具	许可证	商业使用？	主要条件
Piper	MIT	是 — 无限制	包含MIT声明；检查每个语音模型的许可证
Kokoro	Apache 2.0	是 — 无限制	包含Apache 2.0声明
Coqui TTS（工具包）	MPL 2.0	是 — 有条件	披露对工具包文件的任何修改的源代码
XTTS v2（模型）	CPML	否 — 非商用	商用需协议；自Coqui关闭（2024年1月）后无协议可售
F5-TTS	CC-BY-NC-4.0	否 — 非商用	非商用限制延续至微调（Emilia训练数据）
Bark	MIT	是 — 无限制	包含MIT版权声明
StyleTTS 2	MIT	是 — 无限制	包含MIT版权声明
Tortoise	Apache 2.0	是 — 无限制	署名；对任何克隆声音取得同意

📌Note: Coqui TTS（工具包，MPL 2.0）和XTTS v2（特定模型权重，CPML）的许可证不同。您可以在商业产品中使用基于VITS或Tacotron2后端的Coqui TTS工具包（MPL 2.0）。CPML非商用限制专门适用于XTTS v2模型权重及其音频输出 — 而非工具包代码。

⚠️Warning: 本文为事实参考，非法律意见。许可证会变更，边缘情形（声音同意、数据集条款、每个语音模型的许可证）也很重要。商业部署前请自行阅读每款引擎的许可证文件，并咨询律师。

非交互式接受CPML（COQUI_TOS_AGREED）

首次加载受CPML约束的XTTS / Coqui模型时，库会打印许可证条款并等待你输入「y」以接受。该交互式提示会在Docker构建、CI管道和无头服务器中卡住。要非交互式接受CPML，请将COQUI_TOS_AGREED环境变量设为1 — 这会记录你在模型加载前已阅读并同意Coqui Public Model License。它不会改变许可证：CPML仍为非商用，设置该变量是你对这些条款的同意，而非对它们的豁免。

📍 简单一句话

设置环境变量COQUI_TOS_AGREED=1，即可在Docker、CI或任何无头环境中无需交互式提示地接受Coqui Public Model License（CPML）。

💬 简单来说

在shell或Dockerfile中使用export COQUI_TOS_AGREED=1；在Python中于导入或加载模型前设置`os.environ["COQUI_TOS_AGREED"] = "1"`。两种方式都能让模型加载时无需等待键盘输入。

Shell / CI： 运行脚本前执行export COQUI_TOS_AGREED=1。
Docker： 在Dockerfile中加入ENV COQUI_TOS_AGREED=1，或向docker run传入-e COQUI_TOS_AGREED=1。
Python（在模型加载前设置）： `import os; os.environ["COQUI_TOS_AGREED"] = "1" — 必须在TTS(...)`实例化XTTS模型之前运行。
它的作用： 记录对CPML的非交互式接受，使模型加载不会卡在y/n提示上。它不是商业许可证，也不会移除非商用限制。

python

# 1) Shell / CI — accept the CPML once for the session
export COQUI_TOS_AGREED=1

# 2) Dockerfile — bake acceptance into the image
# ENV COQUI_TOS_AGREED=1

# 3) Python — set it before the model is created
import os
os.environ["COQUI_TOS_AGREED"] = "1"   # must be set BEFORE the TTS() call below

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
# Model now loads without the interactive license prompt

⚠️Warning: COQUI_TOS_AGREED=1仅抑制交互式提示 — 它是你对CPML的接受，而CPML仍为非商用许可证。它不会授予XTTS v2的商业权利。

本地TTS与ElevenLabs和云端TTS的比较

ElevenLabs、Google Text-to-Speech和Azure Speech在2026年仍是TTS的质量上限。

质量上限： ElevenLabs > StyleTTS 2 ≈ XTTS v2 > F5-TTS ≈ Coqui TTS > Piper。
延迟： 本地Piper（首次音频30〜50 ms）比任何ElevenLabs API往返（300〜500 ms）都快。
成本： ElevenLabs按套餐收费5〜99美元/月。本地TTS在一次性硬件后成本为0美元。
声音克隆： ElevenLabs Instant Voice Clone ≈ XTTS v2质量。ElevenLabs Professional Voice Clone超过任何本地引擎。
隐私： 本地TTS = 音频数据不发送到任何地方。ElevenLabs = 音频在其服务器上处理。
离线能力： 本地 = 完全离线。ElevenLabs = 需要互联网。
何时使用云端： 专业配音制作、需要最高质量的面向客户产品。
何时使用本地： 隐私敏感音频、嵌入式设备、成本敏感的批量处理、离线环境。

如何选择

从您的需求到正确TTS引擎的决策流程：

📍 简单一句话

需要声音克隆？→ XTTS v2（最佳质量）或F5-TTS（更快，新架构）或Coqui TTS（开放许可证）。需要CPU速度？→ Piper。需要创意音频？→ Bark。需要最佳英语质量？→ StyleTTS 2。

💬 简单来说

声音克隆：质量选XTTS v2，速度选F5-TTS，宽松许可证选Coqui VITS。CPU/Raspberry Pi：仅Piper。播客音效：Bark。英语有声书：StyleTTS 2。

需要声音克隆？ → XTTS v2（最佳质量，CPML）或F5-TTS（新架构，更快，CC-BY-NC-4.0）或Coqui VITS（良好质量，MPL 2.0）。不需要克隆：Piper（速度）或StyleTTS 2（质量）。
需要仅CPU / Raspberry Pi？ → 仅Piper。Kokoro是更高质量的CPU替代品（Apache 2.0）。所有其他引擎都需要GPU。
需要带有非语音声音的创意音频？ → Bark。没有其他本地引擎能原生产生笑声、叹息或音乐。
需要最佳英语朗读质量？ → StyleTTS 2。
需要多语言支持？ → XTTS v2（17种语言），Coqui（20+），Piper（20+语音包）。
需要完全商业化的MIT许可证？ → Piper、Bark或StyleTTS 2。
构建语音助手管道？ → 使用Piper实现低延迟TTS输出。

常见问题

使用XTTS v2进行声音克隆需要多少参考音频？

XTTS v2需要至少3秒的干净参考音频，6+秒会得到明显更好的效果。音频必须是单个扬声器，背景噪声和音乐最少。高质量的源材料比压缩音频产生更好的克隆。

我可以在商业产品中使用Piper TTS吗？

可以。Piper在MIT许可证下授权，允许无限制的商业使用。您必须在产品中包含MIT许可证声明。语音模型（ONNX文件）可能具有单个语音的单独许可证。

哪个本地TTS引擎具有最佳的多语言支持？

XTTS v2支持17种语言的多语言声音克隆——所有本地引擎中最令人印象深刻的多语言功能。Coqui TTS拥有20+种语言模型但缺乏多语言克隆。Piper为快速CPU推理拥有20+种语言语音包。

哪个本地TTS引擎听起来最像人类？

英文叙述方面StyleTTS 2最佳——它达到所有开源英文TTS引擎的最高MOS分数（~4.3 对人类参考 ~4.5）。XTTS v2和F5-TTS在克隆语音自然度方面有竞争力（~4.1）。

我可以商用XTTS v2吗？

不可以，除非有单独的商业协议。XTTS v2在Coqui Public Model License（CPML）下发布，CPML允许对模型及其音频输出进行个人、研究和爱好用途，但禁止商业使用 — 任何付费产品、SaaS、广告支持内容或客户工作。Coqui Inc于2024年1月关闭，因此目前没有任何实体出售XTTS v2商业许可证；实际上请将XTTS v2视为仅限非商用。商业声音克隆请使用Tortoise（Apache 2.0）或基于VITS后端的Coqui TTS工具包（MPL 2.0）。本文为事实参考，非法律意见 — 部署前请自行阅读CPML。

如何非交互式地接受Coqui CPML许可证（Docker / CI）？

将环境变量COQUI_TOS_AGREED设为1。Coqui/XTTS库通常会打印CPML并等待你输入「y」，这会在Docker构建、CI和无头服务器中卡住。设置COQUI_TOS_AGREED=1会记录你的接受，使模型加载时无需提示。在shell或CI步骤中使用export COQUI_TOS_AGREED=1，在Dockerfile中使用ENV COQUI_TOS_AGREED=1，或在Python中于TTS()调用前使用`os.environ["COQUI_TOS_AGREED"] = "1"`。它仅抑制提示 — 它是你对CPML的同意，并不授予商业权利。

XTTS v2支持多少声音和语言？

XTTS v2没有固定的命名声音目录 — 它是克隆模型，你提供一段6秒参考音频，它便复现该说话人（仓库也附带少量内置说话人预设供快速测试）。它能生成17种语言的语音：英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文（zh-cn）、日语、匈牙利语、韩语和印地语。克隆是跨语言的：克隆一次声音即可用17种语言中的任意一种生成。

Kokoro与Piper — 该用哪款轻量级CPU TTS？

两者都在CPU上无需GPU快速运行，且都采用宽松许可证（Piper为MIT，Kokoro为Apache 2.0），因此都可安全商用。当你需要最低延迟和最广的语言覆盖（20+种语言语音包，在Raspberry Pi 5上实时）时选Piper — 它是嵌入式和智能家居语音的标准。当你想要比Piper更高的自然度、且能接受略多的算力时选Kokoro（一个基于StyleTTS 2架构构建的82M参数模型）；其英语质量更接近较重的GPU引擎。Raspberry Pi或常驻助手用Piper；质量比毫秒更重要的桌面/服务器朗读用Kokoro。

参考资源

Piper TTS on GitHub — 源代码、语音包、ONNX模型下载和Raspberry Pi设置指南。
Coqui TTS on GitHub — 源代码、模型列表、声音克隆文档和Python API参考。
XTTS v2文档 — XTTS v2模型卡、许可证（CPML）和声音克隆API。
F5-TTS on GitHub — 流匹配TTS、零样本声音克隆、安装指南和多语言支持。
Tortoise TTS on GitHub — 高质量多声音TTS与声音克隆，Apache 2.0许可证。非常慢但对商用友好。
Hugging Face上的XTTS-v2 LICENSE.txt（CPML） — 管辖XTTS v2的Coqui Public Model License全文。

繁體中文TTS指南：台灣與香港的本地語音合成選擇

普通話（Mandarin）文字轉語音是XTTS v2最成熟的非英語能力之一。對於台灣和香港用戶，選擇支援繁體中文輸入的TTS引擎至關重要——大多數中文TTS預設以簡體字訓練，繁體字處理需要額外設定。

台灣本地有幾個值得關注的TTS項目：由成功大學、交通大學等機構開發的中文語音合成研究成果，以及部分開源的台語（Taiwanese Hokkien）TTS實驗項目，這些都是雲端TTS服務無法替代的本地資源。

XTTS v2繁體中文設定： 語言代碼使用zh-cn（XTTS v2目前不區分繁簡，但輸入繁體字可正確發音）。建議在提示詞中加入「請使用台灣國語腔調」以獲得更接近台灣口音的輸出。
Coqui TTS中文模型： Coqui提供tts_models/zh-CN/baker/tacotron2-DDC作為基礎中文TTS。Baker語料庫以女聲普通話為主，品質穩定但音色單一。適合需要穩定輸出的商業用途。
聲音克隆（Voice Cloning）注意事項： 台灣和香港均受個人資料保護法規管轄（台灣個資法、香港《個人資料（私隱）條例》）。使用他人聲音進行克隆需取得明確同意。用於教育、無障礙服務的自身聲音克隆不受此限制。
台語（Taiwanese）TTS現況： 目前無成熟的本地台語TTS方案。國立臺灣大學的TWNTTS研究項目持續進行中，但尚未有可直接部署的版本。普通話TTS是目前唯一實用選項。
硬體建議（台灣市場）： MacBook M系列（M1/M2/M3/M4）是台灣開發者主流。XTTS v2在M2 Pro 16GB RAM上可實時執行，無需GPU外接卡。NVIDIA GPU用戶（RTX 3060以上）可使用CUDA加速版本。

本地TTS与声音克隆许可证2026：哪些引擎允许商业使用（Piper、XTTS v2、F5-TTS、Coqui）

快速概览

为什么本地TTS很重要

对比表

首次音频延迟比较

Piper TTS — 最快的轻量级选项

Coqui TTS — 最佳开源全能工具包

XTTS v2 — 最佳声音克隆质量

Bark — 超越语音的生成式音频

StyleTTS 2 — 最高自然质量

F5-TTS — 零样本声音克隆，完全开放

许可证与商业使用 — 我能商用这款TTS引擎吗？

非交互式接受CPML（COQUI_TOS_AGREED）

本地TTS与ElevenLabs和云端TTS的比较

如何选择

常见问题

使用XTTS v2进行声音克隆需要多少参考音频？

我可以在商业产品中使用Piper TTS吗？

哪个本地TTS引擎具有最佳的多语言支持？

哪个本地TTS引擎听起来最像人类？

我可以商用XTTS v2吗？

如何非交互式地接受Coqui CPML许可证（Docker / CI）？

XTTS v2支持多少声音和语言？

Kokoro与Piper — 该用哪款轻量级CPU TTS？

参考资源

繁體中文TTS指南：台灣與香港的本地語音合成選擇

相关阅读