Spark TTS

先进的文本转语音与零样本语音克隆技术

Spark TTS 语音样本画廊

聆听使用 Spark TTS 达到的令人印象深刻的效果

Donald Trump
Zhongli (Genshin Impact)

什么是 Spark TTS?

下一代基于 LLM 的文本转语音技术

Spark TTS 代表了文本转语音技术的突破。基于强大的 Qwen2.5 基础,它通过创新的单流方法提供非常自然的语音合成。我们的解耦语音令牌方法消除了对单独声学模型的需求,树立了效率和质量的新标准。

  • 零样本语音克隆:仅需短音频样本即可复制任意声音
  • 双语支持:中文和英文无缝合成
  • 可控生成:调整性别、音调和说话速度
  • 简化架构:直接从 LLM 预测重构音频

开始使用 Spark TTS

使用我们 TTS 平台的快速指南

  1. 选择语音克隆或可控生成模式
  2. 上传参考音频样本或调整语音参数
  3. 输入您的合成文本

Spark TTS 主要特点

发现我们的 TTS 技术的独特之处

简化的架构

完全基于 Qwen2.5,未使用如流匹配的额外生成模型

跨语言能力

可无缝切换中文和英文,自然发音

语音定制

通过调整性别、音调和说话速度参数创建虚拟发言人

研究支持的技术

由包括 HKUST、Mobvoi 等领先机构开发

Frequently Asked Questions

 Spark TTS 与其他 TTS 模型有什么不同?

Spark TTS 使用独特的单流方法和解耦语音令牌。与其他系统不同,它直接从 LLM 预测重构音频,无需单独的声学模型,使其更高效、更简单。

 Spark TTS 如何处理语音克隆?

Spark TTS 支持零样本语音克隆,意味着它可以仅通过短音频样本复制讲者的声音,无需特定训练。这在跨语言场景中也能工作。

 Spark TTS 适用于中文和英文吗?

是的!Spark TTS 完全支持中文和英文,并具有出色的混合语言内容切换能力。该模型在两种语言中保持自然发音。

 Spark TTS 提供哪些语音定制选项?

Spark TTS 允许您通过调整性别、音调和说话速度等参数来创建虚拟发言人。这让您可以精确控制语音特征。

 Spark TTS 可以与我现有的工具一起使用吗?

是的!Spark TTS 提供命令行和网页 UI 界面,便于集成。该模型可以在标准硬件上部署,支持 Python 3.12+ 和 PyTorch 2.5+。

 Spark TTS 的架构有什么独特之处?

Spark TTS 完全基于 Qwen2.5,消除了像流匹配这样的额外生成模型的需求。它直接从 LLM 预测的代码重构音频,简化了过程。

 Spark TTS 适合用于研究目的吗?

绝对可以。Spark TTS 由包括 HKUST、Mobvoi 和其他领先研究机构开发。该模型在 Apache 2.0 许可下发布,适合学术和研究应用。

 Spark TTS 多长时间更新一次?

Spark TTS 团队定期发布更新,以增强模型能力。未来计划包括发布训练代码和用于开发的 VoxBox 数据集。

 Spark TTS 需要什么技术要求?

Spark TTS 需要 Python 3.12+ 和 PyTorch 2.5+。它在 Linux 系统上运行(Windows 支持通过社区指南提供),并借助 GPU 加速实现更快的推理。

 Spark TTS 可以用于商业项目吗?

Spark TTS 在 Apache 2.0 许可下发布,允许商业使用。但请确保遵循道德使用指南,避免用于冒充、欺诈或其他有害目的。