IndexTTS：中英ミキシング対応音声合成ツール

122.1K 00

はじめに

indexTTSは、index-tsチームによって開発された、GitHub上でホストされているオープンソースの音声合成(TTS)ツールです。XTTSとTortoiseの技術をベースに、モジュール設計を改善することで、効率的で高品質な音声合成を実現しています。indexTTSは数万時間に及ぶデータで学習され、中国語と英語の両方をサポートしており、特に中国語のシナリオで優れたパフォーマンスを発揮します。ピンインによって読み間違いを修正し、音声の間を制御します。チームは音質、トレーニングの安定性、音色の類似性を最適化し、XTTSやCosyVoice2といった一般的なTTSシステムよりも優れていると主張している。全機能を体験するには、公式メールアドレスにお問い合わせください。

機能一覧

中国語のピンイン入力をサポートし、多声文字の発音エラーを修正します。
句読点による発話休止位置の制御。
BigVGAN2で音質を向上。
トレーニングの安定性と音色の類似性を高めるためのコンフォーマー条件エンコーダーの統合。
ゼロサンプル音声合成をサポートし、事前トレーニングなしで特定の音声を生成することができます。
中国語と英語の混在したテキストを扱う。

ヘルプの使用

インストール方法

IndexTTSは現在GitHubで公開されているオープンソースプロジェクトだが、直接のインストーラーやオンラインサービスは公式には提供されていない。使用するには、自分で環境を構築する必要がある。以下はインストール手順です：

環境を整える
- お使いのコンピューターにPython 3.8以降が入っていることを確認してください。
- コードをダウンロードするためにGitをインストールする。
- 処理を高速化するにはGPUサポート（NVIDIAグラフィックカードなど）が必要で、CUDAのインストールを推奨する。
ダウンロードコード
ターミナルかコマンドラインに入力する：

git clone https://github.com/index-tts/index-tts.git

IndexTTSコードをローカルにダウンロードします。

依存関係のインストール

プロジェクトフォルダーに移動する：
```
cd index-tts
```
必要なライブラリをインストールする。特に公式の <code>requirements.txt</code> ファイルには、PyTorch、NumPy、Torchaudioといった一般的なTTS依存ファイルをインストールすることをお勧めします：
```
pip install torch torchaudio numpy
```
特定の依存関係がある場合は、コード内のimport文を参照して手動でインストールする必要がある。

訓練済みモデルを取得する

IndexTTS事前学習モデルは直接オープンソースではありません。メールにてご連絡ください。 <code>xuanwu@bilibili.com</code> モデルファイルを取得する。
モデルを受け取ったら、ファイルをプロジェクトディレクトリに置く（正確なパスについては公式回答を参照する必要がある）。

ランニング・プロジェクト

モデルが配置されていると仮定して、メインスクリプトを実行する（ファイル名は <code>main.py</code> (または似たような名前、確認するにはコードをチェックする必要がある）：
```
python main.py
```
パラメータが必要な場合（入力テキストや設定ファイルなど）は、公式ドキュメントに従ってコマンドを調整する必要がある。

主な機能の使い方

インストール後、IndexTTSの中心的な機能は音声を生成することです。以下はその操作方法です：

スピーチの生成

入力テキスト
コード内のテキスト入力部（スクリプトのパラメータまたはインターフェイスの入力）を見つける。例えば

python main.py --text "你好，这是测试文本。"

入力テキストは、中国語、英語、または混在した内容のいずれでも可能です。

ピンイン訂正発音

多音文字で問題が発生した場合は、ピンインを直接入力してください。例えば

python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”

システムはピンインに基づいて正しく発音された音声を生成する。

コントロールストップ

テキストに句読点が追加されると、IndexTTSは自動的にそれを認識し、間を調整します。例

python main.py --text "你好，世界。这是一个测试。"

や「.を使うと、実際のスピーチのリズムを真似て、音声に自然な間を持たせることができる。

出力オーディオ

生成された音声は通常WAVファイルとして保存されます。実行後にプロジェクトディレクトリを確認してください。 <code>output.wav</code> 文書の
プレーヤーでファイルを開くか、コードで出力パスを指定することができます：

python main.py --text "测试" --output "my_audio.wav"

注目機能操作手順

ゼロサンプル音声合成

IndexTTSはゼロサンプル合成をサポートし、訓練されていない音を模倣することができます。
方法：リファレンス・オーディオを提供する（フォーマットは通常WAV）。コードがそれをサポートしていると仮定して：

python main.py --text "hello" --ref_audio "reference.wav"

システムはリファレンス音声の音色を分析し、似たような音を生成する。

高品質オーディオ出力

IndexTTSは、BigVGAN2によって音質が最適化されています。追加設定は必要なく、モデルが正しく読み込まれている限り、出力音声は通常のTTSよりもはるかにクリアです。
ハードウェアがGPUアクセラレーションをサポートしていることを確認してください。

ほら

実行時にエラーが報告された場合は、PyTorchがGPUと互換性があることを確認してください。
公式文書が不完全な場合がありますので、確認することをお勧めします。 <code>README.md</code> またはコードコメント。
パラメータをより深くチューニングするには、ConformerとBigVGAN2の設定を研究することができる（プログラミングとTTS原理の知識が必要）。

アプリケーションシナリオ

教材
教師はIndexTTSを使ってテキストを音声に変換し、生徒のリスニング練習に役立てることができます。また、ピンイン矯正機能により、正しい発音を学ぶことができます。
コンテンツ制作
特に中国語と英語の混在が必要なビデオコンテンツでは、アンカーやUPオーナーがナレーションを生成するために使用することができる。
音声アシスタント開発
開発者は、IndexTTSを使用して、実際の人間の声を模倣し、自然な対話体験を提供するインテリジェントな顧客サービスを作成することができます。
語学学習
生徒たちは、単語や文章を音声に書き起こしたり、聞き取ったり、何度も真似をしたりして、発音の練習に使うことができる。

品質保証

IndexTTSはどの言語に対応していますか？
主に中国語と英語をサポートし、混合テキストも扱える。その他の言語への対応は不明であり、テストが必要である。
フル機能を得るには？
メールでの連絡が必要 <code>xuanwu@bilibili.com</code>トレーニング済みのモデルや詳細な説明を得ることができます。
どのくらいの性能のコンピューターが必要ですか？
GPU（NVIDIAグラフィックカードなど）を推奨、CPUでも動作するが遅い。最低8GBのRAM。
無料ですか？
コードはオープンソースで無料だが、商用利用は制限されている場合があるので、公式と相談する必要がある。