AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

はじめに

RealtimeSTTは、高度な音声アクティビティ検出とウェイクワードアクティベーションを備えた、効率的で低レイテンシーのリアルタイム音声テキスト変換ライブラリです。Kolja Beigelによって、高速で正確な音声テキスト起こしを必要とするアプリケーションをサポートするために開発されました。音声アシスタントであれ、正確な音声文字起こしを必要とするアプリケーションであれ、RealtimeSTTは優れたパフォーマンスと使いやすさを提供します。

RealtimeSTT:实时语音转文字工具,低延迟语音识别-1


 

機能一覧

  • リアルタイム音声テキスト化:様々なアプリケーションシナリオに対応し、音声をリアルタイムでテキストに書き起こします。
  • 音声アクティビティ検出:ユーザーが話し始めた時と止めた時を自動的に検出し、書き起こしの精度を向上させます。
  • ウェイクアップワード起動:ウェイクアップワード機能をサポートし、ユーザーは特定の単語によってシステムを起動することができます。
  • 低遅延:ユーザー体験を向上させるため、音声テキスト化プロセスにおいて低遅延を確保する。
  • マルチプラットフォーム対応:複数のオペレーティングシステムとプラットフォームに対応し、簡単に統合できます。
  • オープンソース・コード:開発者が二次開発やカスタマイズを行えるよう、完全なオープンソース・コードを提供する。

 

ヘルプの使用

設置プロセス

  1. クローン・プロジェクト・ウェアハウス
   git clone https://github.com/KoljaB/RealtimeSTT.git
  1. プロジェクト・カタログにアクセスする:
   cd RealtimeSTT
  1. 依存関係をインストールします:
   pip install -r requirements.txt
  1. (オプション)GPUサポートをインストールします:
   pip install -r requirements-gpu.txt

使用方法

サーバーの起動

  1. 音声テキスト化サーバーを起動する:
   stt-server
  1. サーバーが起動したら、"speak now "というプロンプトを待つ。

クライアントの利用

  1. クライアントを起動し、サーバーに接続する:
   stt
  1. クライアントが起動したら、話し始めると、システムはリアルタイムで音声をテキストに書き起こします。

主な機能

リアルタイム音声テキスト変換

  1. インポート AudioToTextRecorder クラス:
   from RealtimeSTT import AudioToTextRecorder
  1. テキストを処理する関数を定義する:
   def process_text(text):
print(text)
  1. 録音を開始し、テキストを処理する:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

音声アクティビティ検出

  1. このシステムは、ユーザーが通話を開始したときと停止したときを自動的に検出するため、追加の設定は必要ない。

モーニングコール起動

  1. ウェイクアップワード機能を設定し、ユーザーは特定のワードによってシステムを起動することができます。

詳細操作例

言われたことをすべて入力する

  1. インポート AudioToTextRecorder 歌で応える pyautogui::
   from RealtimeSTT import AudioToTextRecorder
import pyautogui
  1. テキストを処理する関数を定義する:
   def process_text(text):
pyautogui.typewrite(text + " ")
  1. 録音を開始し、テキストを処理する:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
無断転載を禁じます:チーフAIシェアリングサークル " RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール
ja日本語