ZipVoice - シャオミのオープンソース音声合成モデル群

45.4K 00

ZipVoiceとは

ZipVoiceは、XiaomiがリリースしたFlow Matchingアーキテクチャに基づく音声合成（TTS）モデルのシリーズで、ZipVoice（ゼロサンプルの単一話者音声合成モデル）とZipVoice-Dialog（ゼロサンプルの対話音声合成モデル）があります。ZipVoiceシリーズは、もともと自動音声認識（ASR）用に設計されたZipformerアーキテクチャを基幹ネットワークとして導入することで、軽量なモデリングと推論の高速化を実現しています。ZipVoiceシリーズは、もともと自動音声認識（ASR）用に設計されたZipformerアーキテクチャを基幹ネットワークとして導入することで、軽量なモデリングと推論の高速化を実現しています。DiTベースの音声合成モデルと比較して、ZipVoiceは同程度の性能で約63%のパラメータ量を削減します。一連のモデルは、話者類似度、単語誤り率、UTMOSなどの客観的メトリクス、CMOS、SMOSなどの主観的メトリクスに優れ、ゼロサンプル音声合成モデルのSOTA性能レベルに達します。

ZipVoiceの特徴

軽量＆高速ZipVoice-Distill: 123Mのモデルパラメータしか持たないZipVoice-Distillは高速で、リソースに制約のある環境での展開に適しています。蒸留バージョンであるZipVoice-Distillはより高速で、若干の性能劣化はありますが、高品質な出力を維持します。
高品質スピーチクローニング話者の類似性、音声の自然性、明瞭性に優れ、元の話者と非常に類似した音声を生成し、幅広い音声対話シナリオに適しています。
多言語サポート中国語と英語の両方をサポートし、異なる言語環境における音声合成のニーズを満たすことができます。
マルチモーダル音声生成ZipVoice-Dialogは2人の会話をモノラルで生成し、ZipVoice-Dialog-Stereoは各スピーカーに個別のチャンネルを割り当てることでステレオ会話を生成し、会話の自然さと没入感を高めます。
オープンソースと使いやすさモデルファイル、トレーニングコード、推論コードは完全にオープンソース化されており、開発者による二次開発やカスタマイズが容易になっています。詳細なインストールと使用に関するガイドラインが提供され、使用の敷居を低くしています。

ZipVoiceの主な利点

Zipformerに基づく効率的なモデリングこの技術革新により、ZipVoiceは高品質の音声合成を維持しながら、モデルのパラメータ数を劇的に減らし、モデルの学習と推論の効率を向上させることができました。
平均アップサンプリング戦略アライメントプロセスを簡素化し、アライメントの安定性と収束速度を向上させ、音声の明瞭度と明瞭度を効果的に高めるために、音声-テキストアライメントの平均アップサンプリング法を使用します。
流動蒸留法これにより、PyTorchのコード推論を使用して、CPUのシングルスレッドでリアルタイムに近い速度（RTF≈1）に達することができ、音声合成のリアルタイム性が大幅に向上します。
小刻みZipVoice-Distill: 123Mのモデルパラメータしか持たないZipVoice-Distillは高速で、リソースに制約のある環境での展開に適しています。その蒸留版であるZipVoice-Distillはさらに高速で、若干の性能低下はありますが、高品質の出力を維持します。
高品質スピーチクローニング話者の類似性、音声の自然さ、明瞭度に優れ、元の話者と類似性の高い音声を生成できるため、さまざまな音声対話シーンに適しています。

ZipVoiceの公式ウェブサイトは？

プロジェクトのウェブサイト:: https://zipvoice.github.io/
GitHubリポジトリ:: https://github.com/k2-fsa/ZipVoice
HuggingFaceモデルライブラリ:: https://huggingface.co/k2-fsa/ZipVoice
arXivテクニカルペーパー:: https://arxiv.org/pdf/2506.13053

ZipVoiceの対象者

音声技術開発者ZipVoiceのオープンソースモデルファイル、トレーニングコード、推論コードは、開発者に二次開発やカスタマイズのための豊富なリソースを提供します。
じんこうちのうけんきゅうしゃZipformerアーキテクチャの導入やストリーム蒸留法の採用など、音声合成分野におけるモデルの革新的な実践は、研究者に新しい研究アイデアや実験プラットフォームを提供し、音声合成技術の発展を促進するのに役立っている。
インテリジェント音声アシスタント開発者ZipVoiceの高品質な音声合成能力と多言語サポートは、インテリジェント音声アシスタントにより自然でスムーズな音声対話体験を提供することができ、異なる言語のユーザー向けのインテリジェント音声アシスタントアプリケーションの開発に適しています。
オーディオ・コンテンツ・クリエーターZipVoiceは、オーディオブック、ラジオドラマ、その他のオーディオコンテンツの高品質な音声を素早く生成することができ、クリエイターのコンテンツ制作効率の向上と制作コストの削減を支援します。
教育分野の実務家言語学習やオンライン教育のシナリオにおいて、ZipVoiceは標準的な音声デモンストレーションを生成し、指導を支援したり、生徒が言語の発音や表現をよりよく学べるよう支援することができ、多言語指導のサポートを必要とするシナリオに適しています。
エンタープライズ・アプリケーション開発者ZipVoiceの軽量設計と高速推論機能により、企業環境に効率的に導入することができ、カスタマーサービスシステムやスマートツアーなどの企業アプリケーションに音声合成を統合する必要がある企業のユーザーエクスペリエンスを向上させます。