Spark TTS

先进的文本转语音与零样本语音克隆技术

Spark TTS 语音样本画廊

聆听使用 Spark TTS 达到的令人印象深刻的效果

Donald Trump

Zhongli (Genshin Impact)

下一代基于 LLM 的文本转语音技术

Spark TTS 代表了文本转语音技术的突破。基于强大的 Qwen2.5 基础，它通过创新的单流方法提供非常自然的语音合成。我们的解耦语音令牌方法消除了对单独声学模型的需求，树立了效率和质量的新标准。

使用我们 TTS 平台的快速指南

发现我们的 TTS 技术的独特之处

完全基于 Qwen2.5，未使用如流匹配的额外生成模型

可无缝切换中文和英文，自然发音

通过调整性别、音调和说话速度参数创建虚拟发言人

由包括 HKUST、Mobvoi 等领先机构开发

Spark TTS 使用独特的单流方法和解耦语音令牌。与其他系统不同，它直接从 LLM 预测重构音频，无需单独的声学模型，使其更高效、更简单。

Spark TTS 支持零样本语音克隆，意味着它可以仅通过短音频样本复制讲者的声音，无需特定训练。这在跨语言场景中也能工作。

是的！Spark TTS 完全支持中文和英文，并具有出色的混合语言内容切换能力。该模型在两种语言中保持自然发音。

Spark TTS 允许您通过调整性别、音调和说话速度等参数来创建虚拟发言人。这让您可以精确控制语音特征。

是的！Spark TTS 提供命令行和网页 UI 界面，便于集成。该模型可以在标准硬件上部署，支持 Python 3.12+ 和 PyTorch 2.5+。

Spark TTS 完全基于 Qwen2.5，消除了像流匹配这样的额外生成模型的需求。它直接从 LLM 预测的代码重构音频，简化了过程。

绝对可以。Spark TTS 由包括 HKUST、Mobvoi 和其他领先研究机构开发。该模型在 Apache 2.0 许可下发布，适合学术和研究应用。

Spark TTS 团队定期发布更新，以增强模型能力。未来计划包括发布训练代码和用于开发的 VoxBox 数据集。

Spark TTS 需要 Python 3.12+ 和 PyTorch 2.5+。它在 Linux 系统上运行（Windows 支持通过社区指南提供），并借助 GPU 加速实现更快的推理。

Spark TTS 在 Apache 2.0 许可下发布，允许商业使用。但请确保遵循道德使用指南，避免用于冒充、欺诈或其他有害目的。