はじめに
Easy-Voice-Toolkitは、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供する、Open Source Speech Projectに基づいた多機能なツールキットです。ユーザーは、必要に応じてこれらのツールを選択的に使用することも、生の音声ファイルを理想的な音声モデルに徐々に変換するために順次使用することもできます。このツールキットはローカル展開に対応しており、ユーザーは軽量のインストールパッケージまたはポータブルパッケージをダウンロードして使用することができます。
機能一覧
- 音響処理
- 音声認識
- 音声転写
- データセット作成(SRT変換&WAV分割)
- モデルトレーニング
- 音声合成
ヘルプの使用
インストールプロセス:
- 軽量インストーラのダウンロードインストール手順を含むが、必要な依存環境やモデルを含まない小さなパッケージ。
- すぐに使えるキャリングケースをダウンロードダウンロード後、解凍してご利用ください。
ローカル展開 - ユーザーインストール:
- 軽量インストーラまたはすぐに使えるポータブルパッケージをダウンロードしてください。
- ダウンロードしたファイルを解凍します。
- うごきだす
.exe
ファイルまたはそのショートカット。
ローカルデプロイメント - 開発者のセットアップ環境:
- Python 3.8以降がインストールされていることを確認してください。
- クローン・プロジェクト・ウェアハウス
ギット クローン https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git
- プロジェクト・ディレクトリに移動する:
cd イージーボイスツールキット
- 依存関係をインストールします:
pip install -r requirements.txt
- GUIの依存関係をインストールします:
pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub
- プログラムを実行する:
python Run.py
機能的な操作の流れ:
- 音響処理オーディオファイルをインポートし、必要な処理ツール(ノイズ除去、編集など)を選択し、処理を適用して結果を保存します。
- 音声認識音声ファイルをインポートし、音声認識モデルを選択し、認識を実行し、テキスト結果をエクスポートします。
- 音声転写音声ファイルをインポートし、トランスクリプションツールを選択してトランスクリプションを実行し、字幕ファイル(SRTなど)をエクスポートします。
- データセット制作音声ファイルをインポートし、データセット作成ツールを選択し、SRT変換またはWAV分割を行い、トレーニングデータセットを作成します。
- モデルトレーニングトレーニングデータセットのインポート、モデルトレーニングツールの選択、トレーニングパラメータの設定、トレーニングの実行、モデルの保存。
- おんせいひょうき音声ファイルのインポート、音声変換ツールの選択、変換パラメータの設定、変換の実行、結果の保存。
ほら
- 現在のところ、UIインターフェースはWindowsシステムのみをサポートしている。
- ダウンロードおよび使用中は、安定したインターネット接続を確保してください。
- 問題が発生した場合は、プロジェクトリポジトリにある説明とFAQを参照してください。