Spark TTS

ゼロショット音声クローン技術による高度なテキスト音声変換

Spark TTSの声サンプルギャラリー

Spark TTSで得られた印象的な結果を聞く

Donald Trump

Zhongli (Genshin Impact)

次世代LLMベースのテキスト音声変換技術

Spark TTSは、テキスト音声変換技術における革新を象徴しています。強力なQwen2.5を基盤にし、革新的な単一ストリームアプローチで自然な音声合成を実現します。切り離された音声トークンのメソッドにより、別々の音響モデルは不要となり、効率と品質の新しい基準を打ち立てています。

当社のTTSプラットフォームのクイックガイド

当社のTTS技術の特長を発見

追加の生成モデルなしでQwen2.5上に完全に構築

自然な発音で中国語と英語の間をシームレスに切り替え

性別、ピッチ、話す速度のパラメータを調整してバーチャルスピーカーを作成

HKUSTやMobvoiなどの主要機関によって開発

Spark TTSは独自の単一ストリームアプローチを使用し、切り離された音声トークンを利用します。別々の音響モデルから音声を再構築せずに、LLMの予測から直接音声を生成するので、より効率的でシンプルです。

Spark TTSはゼロショット音声クローンをサポートしており、特定のトレーニングなしで短い音声サンプルから話者の声を複製できます。これにより、クロスリンガルシナリオでも機能します。

はい！Spark TTSは中国語と英語のフルバイリンガルサポートがあり、混合言語のコンテンツに対して優れたコードスイッチング機能を持っています。モデルは両方の言語で自然な発音を維持します。

Spark TTSを使用すると、性別、ピッチ、話す速度などのパラメータを調整してバーチャルスピーカーを作成できます。これにより、音声の特性を正確に制御できます。

はい！Spark TTSはコマンドラインとWeb UIインターフェースの両方を提供し、簡単に統合できます。モデルはPython 3.12以上とPyTorch 2.5以上で標準ハードウェアにデプロイできます。

Spark TTSは完全にQwen2.5上に構築されており、追加の生成モデルの必要がありません。LLMが予測したコードから直接音声を再構築し、プロセスを簡素化します。

もちろんです。Spark TTSはHKUST、Mobvoiなどの主要な研究機関によって開発されました。モデルはApache 2.0ライセンスの下で利用可能で、学術研究に最適です。

Spark TTSチームは、モデルの機能を強化するために定期的に更新をリリースしています。今後の計画には、トレーニングコードと開発に使用されたVoxBoxデータセットのリリースが含まれています。

Spark TTSはPython 3.12以上とPyTorch 2.5以上が必要です。Linuxシステムで動作し（Windowsサポートはコミュニティガイドを通じて利用可能）、GPUアクセラレーションにより推論が高速化されます。

Spark TTSはApache 2.0ライセンスの下でリリースされており、商業利用が可能です。ただし、倫理的な使用ガイドラインに従い、偽装、詐欺、その他の有害な目的には使用しないでください。