DiaMoE-TTS - 清華とジャイアントネットワークのオープンソース多言語音声合成フレームワーク
DiaMoE-TTSとは?
DiaMoE-TTSは、清華大学とGiant Networkが共同でオープンソース化した多方言音声合成フレームワークで、国際音声記号(IPA)に基づき、方言データの不足、正書法の不統一、複雑な音韻変化の問題を解決する。統一されたIPAフロントエンドの標準化された音素表現によって方言間の差異を排除し、方言を意識したMoE(Mixture-of-Experts)アーキテクチャを採用することで、異なるエキスパートネットワークがそれぞれの方言の特徴学習に集中できるようにし、各方言の独特な音色とリズムを保持する。このフレームワークは F5-TTS 低ランクアダプタ(LoRA)と条件付きアダプタを導入することで、パラメータ効率の良い方言移行を実現し、方言拡張を完了するために微調整が必要なパラメータはわずかである。学習は完全にオープンソースデータに基づいており、高価な人手によるラベル付け音声の必要性を排除し、技術的な敷居を低くしている。実験によれば、DiaMoE-TTSは自然で表現力豊かな音声を生成し、未知の方言や特殊な領域(京劇など)において、わずか数時間のデータでサンプル数ゼロの性能を達成しました。DiaMoE-TTSは11の方言と北京語をサポートしており、ヨーロッパ言語にも拡張可能です。

DiaMoE-TTS 機能の特徴
- 統一IPAフロントエンド国際音声記号(IPA)を入力システムとして採用し、拡張性の高い音素インベントリを構築し、複数の方言や言語の音素アノテーションをサポートし、方言間の差異を排除し、モデリングの一貫性と汎化能力を確保する。
- 方言対応MoEアーキテクチャ方言を認識するためのMixture-of-Expertsアーキテクチャが導入され、異なるエキスパート・ネットワークが異なる方言の特徴を学習することに焦点を当て、動的なゲーティング・メカニズムが、それぞれの方言の独特の音色とリズムを保ちながら、最も適切なエキスパート・ルートを自動的に選択する。
- 低資源方言の適応効率的なパラメータ移行戦略を採用することで、少数のパラメータを微調整するだけで方言の拡張を実現し、バックボーンをMoEモジュールで凍結しておくことで、既存の知識の忘却を避けることができる。
- 多段階トレーニング法このモデルは、IPAマイグレーションの初期化、多方言のコ・トレーニング、方言エキスパートの強化、低リソースの高速適応段階など、モデルの性能を徐々に向上させ、方言の多様性に適応するように設計されている。
- オープンデータ・ドライブオープンソースのASRデータのみで学習されるため、高価な手作業による音声のラベリングが不要になり、技術的な敷居が低くなり、スケーラブルでオープンデータに基づく音声合成をサポートします。
- 効率的な汎化能力このシステムは、例えば客家語の91.7%のように、低リソースの方言でも高い発音精度を達成することができ、未知の方言や特殊なドメイン(京劇など)では、ゼロサンプルのパフォーマンステストを行うことができる。
- 豊富なアプリケーションシナリオ様々な中国方言と北京語の音声合成をサポートし、ヨーロッパ言語への拡張も可能で、方言保護、文化、娯楽などの分野に応用でき、方言の継承と文化産業の発展に技術的なサポートを提供する。
- 完全なツールチェーンオープンソースデータセットのトレーニングスクリプト、推論スクリプト、トレーニング済みモデル、IPAフロントエンドを提供する。
DiaMoE-TTSの主な利点
- データ主導のオープンソースオープンソースデータに完全に基づいたトレーニングにより、高価な手作業による音声のラベリングが不要になり、技術的な敷居とコストが下がります。
- 効率的な汎化能力低リソースの方言でも高い発音精度を達成することができ、未見の方言や特殊なドメイン(京劇など)でもサンプルゼロのパフォーマンステストを達成することができます。
- 方言の保存と拡大中国語の方言や北京語を幅広くサポートし、ヨーロッパの言語にも拡張できるため、方言の保存や言語の多様性を強力にサポートする。
- 迅速な適応と移行新しい方言の拡張は、効率的なパラメーター移行戦略を採用することによって行われる。この戦略では、新しい方言に素早く適応するために、少数のパラメーターを微調整するだけでよい。
- 自然音声合成生成された音声は自然で表情豊かであり、実験の結果、音声の質と表現力に優れていることが分かりました。
DiaMoE-TTSの公式ウェブサイトは?
- GitHubリポジトリ:: https://github.com/GiantAILab/DiaMoE-TTS
- HuggingFaceモデルライブラリ:: https://huggingface.co/RICHARD12369/DiaMoE_TTS
- arXivテクニカルペーパー:: https://www.arxiv.org/pdf/2509.22727
DiaMoE-TTSが適応となる人
- 方言研究家中国語の方言や他の言語の音韻の特徴や音韻の進化を研究するための効率的なツールを提供し、言語研究を支援する。
- 音声合成開発者オープンソースのフレームワークと訓練済みモデルが提供されており、開発者は多言語音声合成システムを迅速に構築し、最適化することができます。
- 方言保存論者音声合成技術によって絶滅の危機に瀕している方言を記録し、継承することで言語の多様性を促進する「方言保存プロジェクト」に貢献する。
- 文化・芸能関係者映画、テレビ、放送、ゲームなどの分野で、地域の特色を生かした音声コンテンツを制作し、文化的な表現を高めることができる。
- 教育者方言を学び、理解し、言語教育を推進するための方言教材開発にも活用できる。
- テクノロジーマニア音声合成や人工知能技術に興味のある人は、オープンソースのコードやドキュメントを通して学び、探求することができます。
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません




