はじめに
Text2Voiceは、シリコンベースのモビリティAPIをベースにテキスト読み上げ機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース(GUI)が最大の特徴だ。開発者のシェルドン・リーがGitHubで作成したもので、ユーザーがインターフェイスを使って簡単にテキストを音声に変換できる。プロジェクトはPythonで開発され、PyQt6フレームワークを組み合わせて直感的なインターフェースを実現している。このプロジェクトは、APIを使ってテキストをリアルタイムで音声に変換するもので、中国語や英語など複数の言語に対応し、異なるトーンを選択することもできる。コードはオープンで、誰でもダウンロード、実行、変更が可能で、音声を素早く生成したい人や開発者に適している。プロジェクトは安定版を持っています , 実用的な機能 , あなたは、インストール後に開始することができます 。
機能一覧
- 中国語、英語、その他の多言語テキストを、グラフィカル・インターフェースを介して音声に変換します。
- 豊富なボイストーンを用意。
- 再生、一時停止、停止を含むリアルタイムのオーディオ再生コントロールをサポート。
- シンプルで美しいグラフィカルな操作ウィンドウを表示します。
- 生成されたオーディオファイルの自動管理。
- 長文テキストの音声分割をサポート。
ヘルプの使用
Text2VoiceはPythonとSilicon Flow APIに依存しており、使用する前に環境のインストールとキーの設定が必要です。以下は、すぐに使い始めるための詳細な手順です。
設置プロセス
- システム環境の準備
Windows、macOSまたはLinux、2GB以上のRAM、安定したインターネット接続。- Pythonのインストール:アクセス
https://www.python.org/
Pythonをインストールしたい場合は、バージョン3.8以上をダウンロードし、インストール時に「PythonをPATHに追加」にチェックを入れる。 - Gitのインストール:訪問
https://git-scm.com/
ダウンロードしてインストールしてください。
- Pythonのインストール:アクセス
- プロジェクトコードのダウンロード
ターミナル(WindowsならCMD、Mac/LinuxならTerminal)を開いて実行する:
git clone https://github.com/axdlee/text2voice.git
次にプロジェクト・ディレクトリに移動する:
cd text2voice
- 仮想環境の構築(推奨)
依存関係の衝突を避けるために仮想環境を作成し、アクティブ化する:
python -m venv venv
- ウィンドウズ
venv\Scripts\activate
- Mac/Linux。
source venv/bin/activate
- 依存関係のインストール
プロジェクトの依存関係はrequirements.txt
をインストールするには、以下のコマンドを実行する:
pip install -r requirements.txt
これにより、PyQt6、Requests、Pygameなどの必要なライブラリがインストールされます。
- APIキーの設定
プロジェクトのルート・ディレクトリに.env
ファイルの内容は以下の通り:
SILICON_API_KEY=你的API密钥
APIキーは、シリコンモビリティのウェブサイトから取得し、入力して保存する必要があります。
- ランニングプログラム
それをターミナルに入力する:
python main.py
番組がスタートすると、グラフィカル・インターフェースが表示される。
主な機能の使い方
- グラフィカル・インターフェースの起動
うごきだすpython main.py
その後、テキスト入力ボックスとコントロールボタンがあるウィンドウが表示されます。 - APIキーの設定
インターフェイスの "Settings "ボタンをクリックし、次のように入力する。.env
シリコンモビリティのAPIキーをファイルに保存し、設定を保存します。 - 入力テキスト
音声に変換したいテキストをテキストボックスに入力またはペーストしてください。 - 音色の選択
ドロップダウンメニューから、男性や女性などの声色を選んでください(正確なオプションはAPIによって決定されます)。 - 音声に変換
音声に変換 "ボタンをクリックすると、プログラムがSilicon Mobility APIを通じてテキストを処理し、音声を生成します。 - オーディオ再生
変換が終わったら、インターフェースの "Play "ボタンで音声を聞くことができます。
注目機能 操作手順
- GUIベースの長文テキスト分割変換
テキストが5000語以上の場合、プログラムは自動的にセグメントごとに処理します。テキスト全体を直接インターフェースに入力し、「音声に変換」をクリックすると、プログラムはセグメントごとに音声を生成します。再生ボタンで各セグメントを聞くことができます。 - オーディオファイル管理
生成された音声は一時的にtemp
フォルダに保存されます。これらのファイルは、プログラムが終了すると自動的に削除されます。保存したい場合は、終了前に手動で他の場所に移動することができます。 - リアルタイム再生コントロール
変換された音声はリアルタイム操作をサポートします。Play "をクリックしてリスニングを開始し、いつでも "Pause "または "Stop"、すべての操作はグラフィカルなインターフェイスで行われます。
ほら
- この機能はシリコンベースのモビリティAPIに依存しているため、ネットワークは安定していなければならない。
- APIエラーを避けるため、1回の変換は5000文字を超えないことを推奨する。
- APIキーは秘密にし、公に共有すべきではない。
- インターフェイスが応答しない場合は、キー、ネットワーク、依存関係が正しいことを確認してください。
以上の手順で、Text2Voiceのグラフィカル・インターフェースを使用してテキストを音声に変換することができます。また、開発者はコードを修正してインターフェースや機能を調整することもできます。
アプリケーションシナリオ
- 教材
聞き取りやすく、学習しやすいグラフィカルなインターフェースで、テキストを音声に変換します。 - コンテンツ制作
ビデオやポッドキャスト用の音声を、時間をかけずに簡単に作成できます。 - アクセシビリティ・サポート
テキストを音声に変換することで、視覚障害者が情報にアクセスできるようにします。
品質保証
- 対応言語は?
Silicon Mobility APIによって決定されるように、中国語や英語を含む複数の言語がサポートされています。 - インターフェイスが応答しないのはなぜですか?
APIキーのエラー、ネットワークの問題、または依存関係が正しくインストールされていない可能性があります。確認して再試行してください。 - オーディオファイルはどこに保存されていますか?
に一時保存される。temp
フォルダに保存され、番組終了後に自動的にクリーンアップされる。