RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

89.8K 00

はじめに

RealtimeSTTは、高度な音声アクティビティ検出とウェイクワードアクティベーションを備えた、効率的で低レイテンシーのリアルタイム音声テキスト変換ライブラリです。Kolja Beigelによって、高速で正確な音声テキスト起こしを必要とするアプリケーションをサポートするために開発されました。音声アシスタントであれ、正確な音声文字起こしを必要とするアプリケーションであれ、RealtimeSTTは優れたパフォーマンスと使いやすさを提供します。

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

機能一覧

リアルタイム音声テキスト化：様々なアプリケーションシナリオに対応し、音声をリアルタイムでテキストに書き起こします。
音声アクティビティ検出：ユーザーが話し始めた時と止めた時を自動的に検出し、書き起こしの精度を向上させます。
ウェイクアップワード起動：ウェイクアップワード機能をサポートし、ユーザーは特定の単語によってシステムを起動することができます。
低遅延：ユーザー体験を向上させるため、音声テキスト化プロセスにおいて低遅延を確保する。
マルチプラットフォーム対応：複数のオペレーティングシステムとプラットフォームに対応し、簡単に統合できます。
オープンソース・コード：開発者が二次開発やカスタマイズを行えるよう、完全なオープンソース・コードを提供する。

ヘルプの使用

設置プロセス

クローン・プロジェクト・ウェアハウス

   git clone https://github.com/KoljaB/RealtimeSTT.git

プロジェクト・カタログにアクセスする：

   cd RealtimeSTT

依存関係をインストールします：

   pip install -r requirements.txt

(オプション）GPUサポートをインストールします：

   pip install -r requirements-gpu.txt

使用方法

サーバーの起動

音声テキスト化サーバーを起動する：

   stt-server

サーバーが起動したら、"speak now "というプロンプトを待つ。

クライアントの利用

クライアントを起動し、サーバーに接続する：

stt

クライアントが起動したら、話し始めると、システムはリアルタイムで音声をテキストに書き起こします。

主な機能

リアルタイム音声テキスト変換

インポート AudioToTextRecorder クラス：

   from RealtimeSTT import AudioToTextRecorder

テキストを処理する関数を定義する：

   def process_text(text):
print(text)

録音を開始し、テキストを処理する：

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

音声アクティビティ検出

このシステムは、ユーザーが通話を開始したときと停止したときを自動的に検出するため、追加の設定は必要ない。

モーニングコール起動

ウェイクアップワード機能を設定し、ユーザーは特定のワードによってシステムを起動することができます。

詳細操作例

言われたことをすべて入力する

インポート AudioToTextRecorder 歌で応える pyautogui::

   from RealtimeSTT import AudioToTextRecorder
import pyautogui

テキストを処理する関数を定義する：

   def process_text(text):
pyautogui.typewrite(text + " ")

録音を開始し、テキストを処理する：

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

ミッドジャーニーV7アルファテスト、新 "ドラフトモード "で開始

AIニュース

1年前

051K

AI検索エンジンPerplexityは、新しいブラウザ「Comet」を発表しようとしている。

AIニュース

1年前

044.1K

アップルのMac Studioパフォーマンス・モンスターが登場：大規模モデルの導入とプロフェッショナルなワークフローを刷新する

AIニュース

1年前

057.5K

AIライティングツール「Refly」が正式オープンソースに、創作の道筋をキャンバスにまとめる

AIニュース

1年前

047.7K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

はじめに

機能一覧

ヘルプの使用

設置プロセス

使用方法

サーバーの起動

クライアントの利用

主な機能

リアルタイム音声テキスト変換

音声アクティビティ検出

モーニングコール起動

詳細操作例

言われたことをすべて入力する

クロードCEOの1万字に及ぶ最新記事は、サム・アルトマンよりも合理的で実用的だ！

マイクロソフトCEOの大胆予測、"AIエージェントがすべてのSaaSを置き換える"

関連記事

ミッドジャーニーV7アルファテスト、新 "ドラフトモード "で開始

AI検索エンジンPerplexityは、新しいブラウザ「Comet」を発表しようとしている。

アップルのMac Studioパフォーマンス・モンスターが登場：大規模モデルの導入とプロフェッショナルなワークフローを刷新する

AIライティングツール「Refly」が正式オープンソースに、創作の道筋をキャンバスにまとめる

コメントなし

最新コレクション

最新記事

RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

はじめに

機能一覧

ヘルプの使用

設置プロセス

使用方法

サーバーの起動

クライアントの利用

主な機能

リアルタイム音声テキスト変換

音声アクティビティ検出

モーニングコール起動

詳細操作例

言われたことをすべて入力する

クロードCEOの1万字に及ぶ最新記事は、サム・アルトマンよりも合理的で実用的だ！

マイクロソフトCEOの大胆予測、"AIエージェントがすべてのSaaSを置き換える"

関連記事

ミッドジャーニーV7アルファテスト、新 "ドラフトモード "で開始

AI検索エンジンPerplexityは、新しいブラウザ「Comet」を発表しようとしている。

アップルのMac Studioパフォーマンス・モンスターが登場：大規模モデルの導入とプロフェッショナルなワークフローを刷新する

AIライティングツール「Refly」が正式オープンソースに、創作の道筋をキャンバスにまとめる

コメントなし

厳選されたAIツール

最新コレクション

最新記事