はじめに
RealtimeSTTは、高度な音声アクティビティ検出とウェイクワードアクティベーションを備えた、効率的で低レイテンシーのリアルタイム音声テキスト変換ライブラリです。Kolja Beigelによって、高速で正確な音声テキスト起こしを必要とするアプリケーションをサポートするために開発されました。音声アシスタントであれ、正確な音声文字起こしを必要とするアプリケーションであれ、RealtimeSTTは優れたパフォーマンスと使いやすさを提供します。
機能一覧
- リアルタイム音声テキスト化:様々なアプリケーションシナリオに対応し、音声をリアルタイムでテキストに書き起こします。
- 音声アクティビティ検出:ユーザーが話し始めた時と止めた時を自動的に検出し、書き起こしの精度を向上させます。
- ウェイクアップワード起動:ウェイクアップワード機能をサポートし、ユーザーは特定の単語によってシステムを起動することができます。
- 低遅延:ユーザー体験を向上させるため、音声テキスト化プロセスにおいて低遅延を確保する。
- マルチプラットフォーム対応:複数のオペレーティングシステムとプラットフォームに対応し、簡単に統合できます。
- オープンソース・コード:開発者が二次開発やカスタマイズを行えるよう、完全なオープンソース・コードを提供する。
ヘルプの使用
設置プロセス
- クローン・プロジェクト・ウェアハウス
git clone https://github.com/KoljaB/RealtimeSTT.git
- プロジェクト・カタログにアクセスする:
cd RealtimeSTT
- 依存関係をインストールします:
pip install -r requirements.txt
- (オプション)GPUサポートをインストールします:
pip install -r requirements-gpu.txt
使用方法
サーバーの起動
- 音声テキスト化サーバーを起動する:
stt-server
- サーバーが起動したら、"speak now "というプロンプトを待つ。
クライアントの利用
- クライアントを起動し、サーバーに接続する:
stt
- クライアントが起動したら、話し始めると、システムはリアルタイムで音声をテキストに書き起こします。
主な機能
リアルタイム音声テキスト変換
- インポート
AudioToTextRecorder
クラス:
from RealtimeSTT import AudioToTextRecorder
- テキストを処理する関数を定義する:
def process_text(text):
print(text)
- 録音を開始し、テキストを処理する:
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
音声アクティビティ検出
- このシステムは、ユーザーが通話を開始したときと停止したときを自動的に検出するため、追加の設定は必要ない。
モーニングコール起動
- ウェイクアップワード機能を設定し、ユーザーは特定のワードによってシステムを起動することができます。
詳細操作例
言われたことをすべて入力する
- インポート
AudioToTextRecorder
歌で応えるpyautogui
::
from RealtimeSTT import AudioToTextRecorder
import pyautogui
- テキストを処理する関数を定義する:
def process_text(text):
pyautogui.typewrite(text + " ")
- 録音を開始し、テキストを処理する:
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)