AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

MegaTTS3:中国語音声と英語音声を合成する軽量モデル

はじめに

MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質な中国語と英語の音声生成に重点を置いている。コアモデルのパラメータはわずか0.45Bで、軽量かつ効率的であり、中国語と英語の混在音声生成と音声クローニングをサポートしている。このプロジェクトはGitHubでホストされており、コードと訓練済みモデルを無料でダウンロードできる。MegaTTS3は数秒の音声サンプルでターゲット音声を模倣でき、アクセントの強弱の調整もサポートしている。学術研究、コンテンツ制作、音声アプリケーションの開発に適しており、将来的には発音や継続時間の制御機能も追加される予定です。

MegaTTS3:合成中英文语音的轻量模型-1


 

機能一覧

  • 自然で滑らかな出力で中国語、英語、混合音声を生成します。
  • 高品質の音声クローニングは、特定の音色を模倣した少量の音声で実現される。
  • アクセントの強さの調整をサポートし、アクセントまたは標準的な発音で音声を生成することができます。
  • モデルの学習効率を向上させるために音響潜在能力を使用する。
  • 高品質のWaveVAEボコーダーを内蔵し、音声の明瞭度と臨場感を向上。
  • 音声分析をサポートするために、アライナーとGraphme-to-Phonemeサブモジュールが用意されている。
  • オープンソースコードと、ユーザー定義開発のための事前学習済みモデル。

 

ヘルプの使用

MegaTTS3は、基本的なプログラミング経験、特にPythonとディープラーニング環境の経験が必要です。以下はインストールと使用方法の詳細です。

設置プロセス

  1. 建築環境
    MegaTTS3 推奨 Python 3.9.これは Conda 仮想環境を作る:

    conda create -n megatts3-env python=3.9
    conda activate megatts3-env
    

    アクティベーション後、すべての操作はこの環境で行われる。

  2. ダウンロードコード
    ターミナルで以下のコマンドを実行し、クローンを作成する。 GitHub 倉庫:

    git clone https://github.com/bytedance/MegaTTS3.git
    cd MegaTTS3
    
  3. 依存関係のインストール
    プロジェクト・オファー requirements.txt必要なライブラリをインストールしたい場合は、以下のコマンドを実行する:

    pip install -r requirements.txt
    

    インストールにかかる時間はネットワークやデバイスによって異なりますが、通常は数分で完了します。

  4. モデルの入手
    訓練済みモデルは、Google DriveまたはHugging Faceからダウンロードできる(公式リンクを参照)。 README).ダウンロードして解凍し ./checkpoints/ フォルダ例

    • そうしれいかん model.pth に入れる。 ./checkpoints/model.pth.
    • 抽出済み latents ファイルは、指定されたリンクから同じディレクトリにダウンロードする必要があります。
  5. 試験施工
    簡単なテスト・コマンドを実行して環境を確認する:

    python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "测试" --output_dir ./gen
    

    エラーが報告されなければ、インストールは成功です。

主な機能

音声合成

音声の生成はMegaTTS3の中核機能である。テキストと参照音声の入力が必要です:

  • 書類の準備
    ある assets/ フォルダをリファレンス・オーディオ(たとえば Chinese_prompt.wavそして latents ファイル(例 Chinese_prompt.npy).もし latents事前に抽出された公式ファイルが必要です。
  • コマンド実行
    インプット:

    CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "你好,这是一段测试语音" --output_dir ./gen
    
    • --input_wav はリファレンス・オーディオ・パスである。
    • --input_text は合成されるテキストである。
    • --output_dir は出力フォルダである。
  • 結果を見る
    生成されたスピーチは ./gen/output.wavフィルムは直接再生可能。

ボイスクローニング

特定の音を模倣するのに必要なオーディオサンプルはわずか数秒:

  • クリアなリファレンス音声を用意する(5~10秒を推奨)。
  • 上記の合成コマンドを使って --input_wav.
  • 出力される音声は、リファレンス・トーンに限りなく近くなる。

アクセントコントロール

パラメータでアクセントの強さを調整する p_w 歌で応える t_w::

  • 英語の音声をアクセント付きで入力する:
    CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text "这是一条有口音的音频" --output_dir ./gen --p_w 1.0 --t_w 3.0
    
  • p_w アプローチ 1.0 オリジナルのアクセントが保たれることもあり、標準的な発音が増える傾向にある。
  • t_w 音色の類似性をコントロールする。 p_w 御前 0-3.
  • 標準化された発音を生成する:
    CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text "这条音频发音标准一些" --output_dir ./gen --p_w 2.5 --t_w 2.5
    

ウェブUIオペレーション

ウェブインターフェイスによる操作に対応:

  • 走っている:
    CUDA_VISIBLE_DEVICES=0 python tts/gradio_api.py
    
  • ブラウザを開き、アドレスを入力する(デフォルト) localhost:7860)、音声とテキストをアップロードして音声を生成する。CPU 環境下で約30秒。

サブモジュールの使用

アライナー

  • 官能性音声とテキストの位置合わせ
  • 使用状況走る tts/frontend_function.py の音声分割または音素認識のコード例です。

グラフからフォネームへ

  • 官能性テキストを音素に変換します。
  • 使用状況参考 tts/infer_cli.py発音分析に利用できる。

ウェーブVAE

  • 官能性圧縮オーディオは latents そして再建された。
  • 制約条件エンコーダのパラメータは公開されておらず、事前に抽出されたものしか使用できません。 latents.

ほら

  • WaveVAEエンコーダのパラメータは、セキュリティ上の理由から使用できません。 latents ドキュメンテーション
  • このプロジェクトは2025年3月22日にリリースされ、現在も開発中で、新しい発音や期間の調整が予定されている。
  • GPU 加速する推薦。CPU 走るが遅い。

 

 

アプリケーションシナリオ

  1. 学術研究
    研究者は、MegaTTS3を使って音声合成技術をテストし、次のような分析を行うことができます。 latents の効果である。
  2. 教材
    教科書を音声に変換してオーディオブックを作成し、学習体験を向上させる。
  3. コンテンツ制作
    ビデオやポッドキャスト用のナレーションを作成し、手作業による録音コストを節約。
  4. 音声対話
    開発者はこれをデバイスに組み込んで、英語と中国語での音声対話を可能にすることができる。

 

品質保証

  1. 対応言語は?
    中国語、英語、混合音声をサポートし、将来的には他の言語への拡張も可能。
  2. マスト GPU わからない。
    必要ない。CPU 実行することは可能だが、速度が遅いので、次のような使い方を推奨する。 GPU.
  3. インストールに失敗した場合の対処法は?
    更新 pip(pip install --upgrade pip)、ネットワークのチェック、または GitHub 問題を提出する。
  4. WaveVAEのエンコーダーが見当たらないのはなぜですか?
    安全上の理由で非公開、正式な事前抽出が必要 latents.
無断転載を禁じます:チーフAIシェアリングサークル " MegaTTS3:中国語音声と英語音声を合成する軽量モデル
ja日本語