AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー

Text2Voice:シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース

はじめに

Text2Voiceは、シリコンベースのモビリティAPIをベースにテキスト読み上げ機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース(GUI)が最大の特徴だ。開発者のシェルドン・リーがGitHubで作成したもので、ユーザーがインターフェイスを使って簡単にテキストを音声に変換できる。プロジェクトはPythonで開発され、PyQt6フレームワークを組み合わせて直感的なインターフェースを実現している。このプロジェクトは、APIを使ってテキストをリアルタイムで音声に変換するもので、中国語や英語など複数の言語に対応し、異なるトーンを選択することもできる。コードはオープンで、誰でもダウンロード、実行、変更が可能で、音声を素早く生成したい人や開発者に適している。プロジェクトは安定版を持っています , 実用的な機能 , あなたは、インストール後に開始することができます 。

Text2Voice:シリコンフローAPI-1に基づく音声合成グラフィカルインターフェース


 

機能一覧

  • 中国語、英語、その他の多言語テキストを、グラフィカル・インターフェースを介して音声に変換します。
  • 豊富なボイストーンを用意。
  • 再生、一時停止、停止を含むリアルタイムのオーディオ再生コントロールをサポート。
  • シンプルで美しいグラフィカルな操作ウィンドウを表示します。
  • 生成されたオーディオファイルの自動管理。
  • 長文テキストの音声分割をサポート。

 

ヘルプの使用

Text2VoiceはPythonとSilicon Flow APIに依存しており、使用する前に環境のインストールとキーの設定が必要です。以下は、すぐに使い始めるための詳細な手順です。

設置プロセス

  1. システム環境の準備
    Windows、macOSまたはLinux、2GB以上のRAM、安定したインターネット接続。

    • Pythonのインストール:アクセス https://www.python.org/Pythonをインストールしたい場合は、バージョン3.8以上をダウンロードし、インストール時に「PythonをPATHに追加」にチェックを入れる。
    • Gitのインストール:訪問 https://git-scm.com/ダウンロードしてインストールしてください。
  2. プロジェクトコードのダウンロード
    ターミナル(WindowsならCMD、Mac/LinuxならTerminal)を開いて実行する:
git clone https://github.com/axdlee/text2voice.git

次にプロジェクト・ディレクトリに移動する:

cd text2voice
  1. 仮想環境の構築(推奨)
    依存関係の衝突を避けるために仮想環境を作成し、アクティブ化する:
python -m venv venv
  • ウィンドウズ
    venv\Scripts\activate
    
  • Mac/Linux。
    source venv/bin/activate
    
  1. 依存関係のインストール
    プロジェクトの依存関係は requirements.txt をインストールするには、以下のコマンドを実行する:
pip install -r requirements.txt

これにより、PyQt6、Requests、Pygameなどの必要なライブラリがインストールされます。

  1. APIキーの設定
    プロジェクトのルート・ディレクトリに .env ファイルの内容は以下の通り:
SILICON_API_KEY=你的API密钥

APIキーは、シリコンモビリティのウェブサイトから取得し、入力して保存する必要があります。

  1. ランニングプログラム
    それをターミナルに入力する:
python main.py

番組がスタートすると、グラフィカル・インターフェースが表示される。

主な機能の使い方

  1. グラフィカル・インターフェースの起動
    うごきだす python main.py その後、テキスト入力ボックスとコントロールボタンがあるウィンドウが表示されます。
  2. APIキーの設定
    インターフェイスの "Settings "ボタンをクリックし、次のように入力する。 .env シリコンモビリティのAPIキーをファイルに保存し、設定を保存します。
  3. 入力テキスト
    音声に変換したいテキストをテキストボックスに入力またはペーストしてください。
  4. 音色の選択
    ドロップダウンメニューから、男性や女性などの声色を選んでください(正確なオプションはAPIによって決定されます)。
  5. 音声に変換
    音声に変換 "ボタンをクリックすると、プログラムがSilicon Mobility APIを通じてテキストを処理し、音声を生成します。
  6. オーディオ再生
    変換が終わったら、インターフェースの "Play "ボタンで音声を聞くことができます。

注目機能 操作手順

  • GUIベースの長文テキスト分割変換
    テキストが5000語以上の場合、プログラムは自動的にセグメントごとに処理します。テキスト全体を直接インターフェースに入力し、「音声に変換」をクリックすると、プログラムはセグメントごとに音声を生成します。再生ボタンで各セグメントを聞くことができます。
  • オーディオファイル管理
    生成された音声は一時的に temp フォルダに保存されます。これらのファイルは、プログラムが終了すると自動的に削除されます。保存したい場合は、終了前に手動で他の場所に移動することができます。
  • リアルタイム再生コントロール
    変換された音声はリアルタイム操作をサポートします。Play "をクリックしてリスニングを開始し、いつでも "Pause "または "Stop"、すべての操作はグラフィカルなインターフェイスで行われます。

ほら

  • この機能はシリコンベースのモビリティAPIに依存しているため、ネットワークは安定していなければならない。
  • APIエラーを避けるため、1回の変換は5000文字を超えないことを推奨する。
  • APIキーは秘密にし、公に共有すべきではない。
  • インターフェイスが応答しない場合は、キー、ネットワーク、依存関係が正しいことを確認してください。

以上の手順で、Text2Voiceのグラフィカル・インターフェースを使用してテキストを音声に変換することができます。また、開発者はコードを修正してインターフェースや機能を調整することもできます。

 

アプリケーションシナリオ

  1. 教材
    聞き取りやすく、学習しやすいグラフィカルなインターフェースで、テキストを音声に変換します。
  2. コンテンツ制作
    ビデオやポッドキャスト用の音声を、時間をかけずに簡単に作成できます。
  3. アクセシビリティ・サポート
    テキストを音声に変換することで、視覚障害者が情報にアクセスできるようにします。

 

品質保証

  1. 対応言語は?
    Silicon Mobility APIによって決定されるように、中国語や英語を含む複数の言語がサポートされています。
  2. インターフェイスが応答しないのはなぜですか?
    APIキーのエラー、ネットワークの問題、または依存関係が正しくインストールされていない可能性があります。確認して再試行してください。
  3. オーディオファイルはどこに保存されていますか?
    に一時保存される。 temp フォルダに保存され、番組終了後に自動的にクリーンアップされる。
無断転載を禁じます:チーフAIシェアリングサークル " Text2Voice:シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース
ja日本語