Text2Voice：シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース

56.2K 00

はじめに

Text2Voiceは、シリコンベースのモビリティAPIをベースにテキスト読み上げ機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース（GUI）が最大の特徴だ。開発者のシェルドン・リーがGitHubで作成したもので、ユーザーがインターフェイスを使って簡単にテキストを音声に変換できる。プロジェクトはPythonで開発され、PyQt6フレームワークを組み合わせて直感的なインターフェースを実現している。このプロジェクトは、APIを使ってテキストをリアルタイムで音声に変換するもので、中国語や英語など複数の言語に対応し、異なるトーンを選択することもできる。コードはオープンで、誰でもダウンロード、実行、変更が可能で、音声を素早く生成したい人や開発者に適している。プロジェクトは安定版を持っています , 実用的な機能 , あなたは、インストール後に開始することができます。

機能一覧

中国語、英語、その他の多言語テキストを、グラフィカル・インターフェースを介して音声に変換します。
豊富なボイストーンを用意。
再生、一時停止、停止を含むリアルタイムのオーディオ再生コントロールをサポート。
シンプルで美しいグラフィカルな操作ウィンドウを表示します。
生成されたオーディオファイルの自動管理。
長文テキストの音声分割をサポート。

ヘルプの使用

Text2VoiceはPythonとSilicon Flow APIに依存しており、使用する前に環境のインストールとキーの設定が必要です。以下は、すぐに使い始めるための詳細な手順です。

設置プロセス

システム環境の準備
Windows、macOSまたはLinux、2GB以上のRAM、安定したインターネット接続。
- Pythonのインストール：アクセス https://www.python.org/Pythonをインストールしたい場合は、バージョン3.8以上をダウンロードし、インストール時に「PythonをPATHに追加」にチェックを入れる。
- Gitのインストール：訪問 https://git-scm.com/ダウンロードしてインストールしてください。
プロジェクトコードのダウンロード
ターミナル（WindowsならCMD、Mac/LinuxならTerminal）を開いて実行する：

git clone https://github.com/axdlee/text2voice.git

次にプロジェクト・ディレクトリに移動する：

cd text2voice

仮想環境の構築（推奨）
依存関係の衝突を避けるために仮想環境を作成し、アクティブ化する：

python -m venv venv

ウィンドウズ
```
venv\Scripts\activate
```
Mac/Linux。
```
source venv/bin/activate
```

依存関係のインストール
プロジェクトの依存関係は requirements.txt をインストールするには、以下のコマンドを実行する：

pip install -r requirements.txt

これにより、PyQt6、Requests、Pygameなどの必要なライブラリがインストールされます。

APIキーの設定
プロジェクトのルート・ディレクトリに .env ファイルの内容は以下の通り：

SILICON_API_KEY=你的API密钥

APIキーは、シリコンモビリティのウェブサイトから取得し、入力して保存する必要があります。

ランニングプログラム
それをターミナルに入力する：

python main.py

番組がスタートすると、グラフィカル・インターフェースが表示される。

主な機能の使い方

グラフィカル・インターフェースの起動
うごきだす python main.py その後、テキスト入力ボックスとコントロールボタンがあるウィンドウが表示されます。
APIキーの設定
インターフェイスの "Settings "ボタンをクリックし、次のように入力する。 .env シリコンモビリティのAPIキーをファイルに保存し、設定を保存します。
入力テキスト
音声に変換したいテキストをテキストボックスに入力またはペーストしてください。
音色の選択
ドロップダウンメニューから、男性や女性などの声色を選んでください（正確なオプションはAPIによって決定されます）。
音声に変換
音声に変換 "ボタンをクリックすると、プログラムがSilicon Mobility APIを通じてテキストを処理し、音声を生成します。
オーディオ再生
変換が終わったら、インターフェースの "Play "ボタンで音声を聞くことができます。

注目機能操作手順

GUIベースの長文テキスト分割変換
テキストが5000語以上の場合、プログラムは自動的にセグメントごとに処理します。テキスト全体を直接インターフェースに入力し、「音声に変換」をクリックすると、プログラムはセグメントごとに音声を生成します。再生ボタンで各セグメントを聞くことができます。
オーディオファイル管理
生成された音声は一時的に temp フォルダに保存されます。これらのファイルは、プログラムが終了すると自動的に削除されます。保存したい場合は、終了前に手動で他の場所に移動することができます。
リアルタイム再生コントロール
変換された音声はリアルタイム操作をサポートします。Play "をクリックしてリスニングを開始し、いつでも "Pause "または "Stop"、すべての操作はグラフィカルなインターフェイスで行われます。

ほら

この機能はシリコンベースのモビリティAPIに依存しているため、ネットワークは安定していなければならない。
APIエラーを避けるため、1回の変換は5000文字を超えないことを推奨する。
APIキーは秘密にし、公に共有すべきではない。
インターフェイスが応答しない場合は、キー、ネットワーク、依存関係が正しいことを確認してください。

以上の手順で、Text2Voiceのグラフィカル・インターフェースを使用してテキストを音声に変換することができます。また、開発者はコードを修正してインターフェースや機能を調整することもできます。

アプリケーションシナリオ

教材
聞き取りやすく、学習しやすいグラフィカルなインターフェースで、テキストを音声に変換します。
コンテンツ制作
ビデオやポッドキャスト用の音声を、時間をかけずに簡単に作成できます。
アクセシビリティ・サポート
テキストを音声に変換することで、視覚障害者が情報にアクセスできるようにします。

品質保証

対応言語は？
Silicon Mobility APIによって決定されるように、中国語や英語を含む複数の言語がサポートされています。
インターフェイスが応答しないのはなぜですか？
APIキーのエラー、ネットワークの問題、または依存関係が正しくインストールされていない可能性があります。確認して再試行してください。
オーディオファイルはどこに保存されていますか？
に一時保存される。 temp フォルダに保存され、番組終了後に自動的にクリーンアップされる。