AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

IndexTTS:中英ミキシング対応音声合成ツール

はじめに

indexTTSは、index-tsチームによって開発された、GitHub上でホストされているオープンソースの音声合成(TTS)ツールです。XTTSとTortoiseの技術をベースに、モジュール設計を改善することで、効率的で高品質な音声合成を実現しています。indexTTSは数万時間に及ぶデータで学習され、中国語と英語の両方をサポートしており、特に中国語のシナリオで優れたパフォーマンスを発揮します。ピンインによって読み間違いを修正し、音声の間を制御します。チームは音質、トレーニングの安定性、音色の類似性を最適化し、XTTSやCosyVoice2といった一般的なTTSシステムよりも優れていると主張している。全機能を体験するには、公式メールアドレスにお問い合わせください。

IndexTTS:B站开源的高质量文本转语音工具-1


 

機能一覧

  • 中国語のピンイン入力をサポートし、多声文字の発音エラーを修正します。
  • 句読点による発話休止位置の制御。
  • BigVGAN2で音質を向上。
  • トレーニングの安定性と音色の類似性を高めるためのコンフォーマー条件エンコーダーの統合。
  • ゼロサンプル音声合成をサポートし、事前トレーニングなしで特定の音声を生成することができます。
  • 中国語と英語の混在したテキストを扱う。

 

ヘルプの使用

インストール方法

IndexTTSは現在GitHubで公開されているオープンソースプロジェクトだが、直接のインストーラーやオンラインサービスは公式には提供されていない。使用するには、自分で環境を構築する必要がある。以下はインストール手順です:

  1. 環境を整える
    • お使いのコンピューターにPython 3.8以降が入っていることを確認してください。
    • コードをダウンロードするためにGitをインストールする。
    • 処理を高速化するにはGPUサポート(NVIDIAグラフィックカードなど)が必要で、CUDAのインストールを推奨する。
  2. ダウンロードコード
    ターミナルかコマンドラインに入力する:
git clone https://github.com/index-tts/index-tts.git

IndexTTSコードをローカルにダウンロードします。

  1. 依存関係のインストール
  • プロジェクトフォルダーに移動する:
    cd index-tts
    
  • 必要なライブラリをインストールする。特に公式の <code>requirements.txt</code> ファイルには、PyTorch、NumPy、Torchaudioといった一般的なTTS依存ファイルをインストールすることをお勧めします:
    pip install torch torchaudio numpy
    
  • 特定の依存関係がある場合は、コード内のimport文を参照して手動でインストールする必要がある。
  1. 訓練済みモデルを取得する
  • IndexTTS事前学習モデルは直接オープンソースではありません。メールにてご連絡ください。 <code>xuanwu@bilibili.com</code> モデルファイルを取得する。
  • モデルを受け取ったら、ファイルをプロジェクトディレクトリに置く(正確なパスについては公式回答を参照する必要がある)。
  1. ランニング・プロジェクト
  • モデルが配置されていると仮定して、メインスクリプトを実行する(ファイル名は <code>main.py</code> (または似たような名前、確認するにはコードをチェックする必要がある):
    python main.py
    
  • パラメータが必要な場合(入力テキストや設定ファイルなど)は、公式ドキュメントに従ってコマンドを調整する必要がある。

主な機能の使い方

インストール後、IndexTTSの中心的な機能は音声を生成することです。以下はその操作方法です:

スピーチの生成

  • 入力テキスト
    コード内のテキスト入力部(スクリプトのパラメータまたはインターフェイスの入力)を見つける。例えば
python main.py --text "你好,这是测试文本。"

入力テキストは、中国語、英語、または混在した内容のいずれでも可能です。

ピンイン訂正発音

  • 多音文字で問題が発生した場合は、ピンインを直接入力してください。例えば
python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”
  • システムはピンインに基づいて正しく発音された音声を生成する。

コントロールストップ

  • テキストに句読点が追加されると、IndexTTSは自動的にそれを認識し、間を調整します。例
python main.py --text "你好,世界。这是一个测试。"
  • や「.を使うと、実際のスピーチのリズムを真似て、音声に自然な間を持たせることができる。

出力オーディオ

  • 生成された音声は通常WAVファイルとして保存されます。実行後にプロジェクトディレクトリを確認してください。 <code>output.wav</code> 文書の
  • プレーヤーでファイルを開くか、コードで出力パスを指定することができます:
python main.py --text "测试" --output "my_audio.wav"

注目機能 操作手順

ゼロサンプル音声合成

  • IndexTTSはゼロサンプル合成をサポートし、訓練されていない音を模倣することができます。
  • 方法:リファレンス・オーディオを提供する(フォーマットは通常WAV)。コードがそれをサポートしていると仮定して:

python main.py --text "hello" --ref_audio "reference.wav"

  • システムはリファレンス音声の音色を分析し、似たような音を生成する。

高品質オーディオ出力

  • IndexTTSは、BigVGAN2によって音質が最適化されています。追加設定は必要なく、モデルが正しく読み込まれている限り、出力音声は通常のTTSよりもはるかにクリアです。
  • ハードウェアがGPUアクセラレーションをサポートしていることを確認してください。

ほら

  • 実行時にエラーが報告された場合は、PyTorchがGPUと互換性があることを確認してください。
  • 公式文書が不完全な場合がありますので、確認することをお勧めします。 <code>README.md</code> またはコードコメント。
  • パラメータをより深くチューニングするには、ConformerとBigVGAN2の設定を研究することができる(プログラミングとTTS原理の知識が必要)。

 

アプリケーションシナリオ

  1. 教材
    教師はIndexTTSを使ってテキストを音声に変換し、生徒のリスニング練習に役立てることができます。また、ピンイン矯正機能により、正しい発音を学ぶことができます。
  2. コンテンツ制作
    特に中国語と英語の混在が必要なビデオコンテンツでは、アンカーやUPオーナーがナレーションを生成するために使用することができる。
  3. 音声アシスタント開発
    開発者は、IndexTTSを使用して、実際の人間の声を模倣し、自然な対話体験を提供するインテリジェントな顧客サービスを作成することができます。
  4. 語学学習
    生徒たちは、単語や文章を音声に書き起こしたり、聞き取ったり、何度も真似をしたりして、発音の練習に使うことができる。

 

品質保証

  1. IndexTTSはどの言語に対応していますか?
    主に中国語と英語をサポートし、混合テキストも扱える。その他の言語への対応は不明であり、テストが必要である。
  2. フル機能を得るには?
    メールでの連絡が必要 <code>xuanwu@bilibili.com</code>トレーニング済みのモデルや詳細な説明を得ることができます。
  3. どのくらいの性能のコンピューターが必要ですか?
    GPU(NVIDIAグラフィックカードなど)を推奨、CPUでも動作するが遅い。最低8GBのRAM。
  4. 無料ですか?
    コードはオープンソースで無料だが、商用利用は制限されている場合があるので、公式と相談する必要がある。
無断転載を禁じます:チーフAIシェアリングサークル " IndexTTS:中英ミキシング対応音声合成ツール
ja日本語