はじめに
IMS Toucanは、ドイツのシュトゥットガルト大学の自然言語処理研究所(IMS)によって開発された最先端の音声合成(TTS)ツールキットです。7000以上の言語をサポートするこのツールキットは、高速で、制御可能で、必要な計算リソースが少ない。IMS Toucanは、研究、教育、実世界のアプリケーションのための効率的な音声合成ソリューションを提供するように設計されている。このツールキットにより、ユーザーは最先端の音声合成技術をトレーニングし、使用し、教えることができます。IMS Toucanは、豊富な機能モジュールと柔軟な制御インターフェースを提供し、ユーザーはオンデマンドで高品質の音声出力を生成することができます。
デモ:https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS
機能一覧
- 多言語サポート7000以上の言語の音声合成をサポート。
- 迅速な合成リアルタイムアプリケーションのための効率的な音声生成速度。
- 可変ピッチ、リズム、音色を正確にコントロールできる。
- 低い演算能力実行に大きな計算資源を必要とせず、幅広いハードウェア環境に適しています。
- インタラクティブ・プレゼンテーション音声合成機能を直接体験できるオンラインデモを用意しています。
- オープンソース二次開発やカスタマイズが容易な完全なオープンソースコードベース。
- 事前学習モデル訓練済みの音声合成モデルを提供し、ユーザーが直接使用したり、さらに微調整することができます。
ヘルプの使用
設置プロセス
- 基本要件Pythonのバージョンは3.10を推奨します。libsndfile1、espeak-ng、ffmpeg、libasound-dev、libportaudio2、libsqlite3-devをインストールしてください。
- クローン倉庫IMS Toucanリポジトリをローカルマシンにクローンします(モデル学習にはCUDA対応GPUを推奨します。)
git clone https://github.com/DigitalPhonetics/IMS-Toucan.git
cd IMS-Toucan
- 仮想環境の構築基本的な依存関係をインストールするための仮想環境を作成し、有効化する。
python -m venv .
ソース /bin/activate
pip install --no-cache-dir -r requirements.txt
- デモ・スクリプトの実行インストールが完了したら、デモンストレーションのために以下のスクリプトを実行してください。
python run_advanced_GUI_demo.py
機能 操作の流れ
- 音声合成インタラクティブ・インターフェースにテキストを入力し、言語と音声パラメーターを選択して、Generateボタンをクリックすると音声が生成されます。
- ボイスコントロールピッチとデュレーションのスライダーをドラッグすることで、生成される音声のピッチとリズムを正確に調整することができます。
- 言葉の置き換え音声パラメータはそのままで、別の音声モデルに変更することができます。
- モデルトレーニングユーザは自分のデータセットを使って新しい音声モデルをトレーニングすることができます。トレーニングの方法については、リポジトリのトレーニングスクリプトやドキュメントを参照してください。
注目の機能
- 多言語サポートIMS Toucanは7,000以上の言語をサポートしており、ユーザーは必要に応じて音声合成に使用する言語を選択することができます。
- 効率的な合成IMS Toucanは、コンピュータリソースの少ない環境でも、高品質の音声を迅速に生成することができます。
- 柔軟なコントロールユーザは、対話型インターフェースを通じて音声のパラメータを正確に制御し、要件を満たす音声出力を生成することができます。