はじめに
indexTTSは、index-tsチームによって開発された、GitHub上でホストされているオープンソースの音声合成(TTS)ツールです。XTTSとTortoiseの技術をベースに、モジュール設計を改善することで、効率的で高品質な音声合成を実現しています。indexTTSは数万時間に及ぶデータで学習され、中国語と英語の両方をサポートしており、特に中国語のシナリオで優れたパフォーマンスを発揮します。ピンインによって読み間違いを修正し、音声の間を制御します。チームは音質、トレーニングの安定性、音色の類似性を最適化し、XTTSやCosyVoice2といった一般的なTTSシステムよりも優れていると主張している。全機能を体験するには、公式メールアドレスにお問い合わせください。
機能一覧
- 中国語のピンイン入力をサポートし、多声文字の発音エラーを修正します。
- 句読点による発話休止位置の制御。
- BigVGAN2で音質を向上。
- トレーニングの安定性と音色の類似性を高めるためのコンフォーマー条件エンコーダーの統合。
- ゼロサンプル音声合成をサポートし、事前トレーニングなしで特定の音声を生成することができます。
- 中国語と英語の混在したテキストを扱う。
ヘルプの使用
インストール方法
IndexTTSは現在GitHubで公開されているオープンソースプロジェクトだが、直接のインストーラーやオンラインサービスは公式には提供されていない。使用するには、自分で環境を構築する必要がある。以下はインストール手順です:
- 環境を整える
- お使いのコンピューターにPython 3.8以降が入っていることを確認してください。
- コードをダウンロードするためにGitをインストールする。
- 処理を高速化するにはGPUサポート(NVIDIAグラフィックカードなど)が必要で、CUDAのインストールを推奨する。
- ダウンロードコード
ターミナルかコマンドラインに入力する:
git clone https://github.com/index-tts/index-tts.git
IndexTTSコードをローカルにダウンロードします。
- 依存関係のインストール
- プロジェクトフォルダーに移動する:
cd index-tts
- 必要なライブラリをインストールする。特に公式の
<code>requirements.txt</code>
ファイルには、PyTorch、NumPy、Torchaudioといった一般的なTTS依存ファイルをインストールすることをお勧めします:pip install torch torchaudio numpy
- 特定の依存関係がある場合は、コード内のimport文を参照して手動でインストールする必要がある。
- 訓練済みモデルを取得する
- IndexTTS事前学習モデルは直接オープンソースではありません。メールにてご連絡ください。
<code>xuanwu@bilibili.com</code>
モデルファイルを取得する。 - モデルを受け取ったら、ファイルをプロジェクトディレクトリに置く(正確なパスについては公式回答を参照する必要がある)。
- ランニング・プロジェクト
- モデルが配置されていると仮定して、メインスクリプトを実行する(ファイル名は
<code>main.py</code>
(または似たような名前、確認するにはコードをチェックする必要がある):python main.py
- パラメータが必要な場合(入力テキストや設定ファイルなど)は、公式ドキュメントに従ってコマンドを調整する必要がある。
主な機能の使い方
インストール後、IndexTTSの中心的な機能は音声を生成することです。以下はその操作方法です:
スピーチの生成
- 入力テキスト
コード内のテキスト入力部(スクリプトのパラメータまたはインターフェイスの入力)を見つける。例えば
python main.py --text "你好,这是测试文本。"
入力テキストは、中国語、英語、または混在した内容のいずれでも可能です。
ピンイン訂正発音
- 多音文字で問題が発生した場合は、ピンインを直接入力してください。例えば
python main.py --text "xing2 hang2" # 纠正为“银行”而不是“星航”
- システムはピンインに基づいて正しく発音された音声を生成する。
コントロールストップ
- テキストに句読点が追加されると、IndexTTSは自動的にそれを認識し、間を調整します。例
python main.py --text "你好,世界。这是一个测试。"
- や「.を使うと、実際のスピーチのリズムを真似て、音声に自然な間を持たせることができる。
出力オーディオ
- 生成された音声は通常WAVファイルとして保存されます。実行後にプロジェクトディレクトリを確認してください。
<code>output.wav</code>
文書の - プレーヤーでファイルを開くか、コードで出力パスを指定することができます:
python main.py --text "测试" --output "my_audio.wav"
注目機能 操作手順
ゼロサンプル音声合成
- IndexTTSはゼロサンプル合成をサポートし、訓練されていない音を模倣することができます。
- 方法:リファレンス・オーディオを提供する(フォーマットは通常WAV)。コードがそれをサポートしていると仮定して:
python main.py --text "hello" --ref_audio "reference.wav"
- システムはリファレンス音声の音色を分析し、似たような音を生成する。
高品質オーディオ出力
- IndexTTSは、BigVGAN2によって音質が最適化されています。追加設定は必要なく、モデルが正しく読み込まれている限り、出力音声は通常のTTSよりもはるかにクリアです。
- ハードウェアがGPUアクセラレーションをサポートしていることを確認してください。
ほら
- 実行時にエラーが報告された場合は、PyTorchがGPUと互換性があることを確認してください。
- 公式文書が不完全な場合がありますので、確認することをお勧めします。
<code>README.md</code>
またはコードコメント。 - パラメータをより深くチューニングするには、ConformerとBigVGAN2の設定を研究することができる(プログラミングとTTS原理の知識が必要)。
アプリケーションシナリオ
- 教材
教師はIndexTTSを使ってテキストを音声に変換し、生徒のリスニング練習に役立てることができます。また、ピンイン矯正機能により、正しい発音を学ぶことができます。 - コンテンツ制作
特に中国語と英語の混在が必要なビデオコンテンツでは、アンカーやUPオーナーがナレーションを生成するために使用することができる。 - 音声アシスタント開発
開発者は、IndexTTSを使用して、実際の人間の声を模倣し、自然な対話体験を提供するインテリジェントな顧客サービスを作成することができます。 - 語学学習
生徒たちは、単語や文章を音声に書き起こしたり、聞き取ったり、何度も真似をしたりして、発音の練習に使うことができる。
品質保証
- IndexTTSはどの言語に対応していますか?
主に中国語と英語をサポートし、混合テキストも扱える。その他の言語への対応は不明であり、テストが必要である。 - フル機能を得るには?
メールでの連絡が必要<code>xuanwu@bilibili.com</code>
トレーニング済みのモデルや詳細な説明を得ることができます。 - どのくらいの性能のコンピューターが必要ですか?
GPU(NVIDIAグラフィックカードなど)を推奨、CPUでも動作するが遅い。最低8GBのRAM。 - 無料ですか?
コードはオープンソースで無料だが、商用利用は制限されている場合があるので、公式と相談する必要がある。