はじめに
ウィスパー Inputはオープンソースの音声書き起こしツールで、Optionボタンを押すことで音声の録音を開始し、ボタンを離すことで録音を終了することができる。このツールは グロック Whisper Large V3 Turboモデルは、音声翻訳を実行し、1~2秒で高速フィードバックを提供します。 シリコンフロー FunAudioLLM/SenseVoiceSmallをホストとし、より高速な認識と高い精度を実現したモデル。視覚障害者など、効率的な音声入力を必要とするユーザーに特に適しています。
機能一覧
- 音声録音と翻訳Optionボタンを押すと録音が開始され、ボタンを持ち上げると録音が終了し、自動的に機種に電話して翻訳を依頼します。
- 多言語サポート多言語での音声書き起こしをサポートします。
- 迅速なフィードバックほとんどの音声入力は1~2秒以内に返すことができます。
- 利用無料GroqとSiliconFlowが無償で提供する無償利用に対応。
- 句読点のサポート句読点は、翻訳されたテキストの読みやすさを向上させるために自動的に追加されます。
- アクセシビリティ・サポート視覚障害者のためのシンプルなmacOSクライアントが開発されています。
ヘルプの使用
設置プロセス
- 前提条件Pythonのバージョンが3.10以上であることを確認してください。
- クローンプロジェクト::
git clone https://github.com/ErlichLiu/Whisper-Input.git
- 仮想環境の構築::
python -m venv venv
- 仮想環境をアクティブにする::
- macOS/Linux。
バッシュ
ソース venv/bin/activate
- ウィンドウズ
バッシュ
.\起動する
- macOS/Linux。
- 依存関係のインストール::
pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt
構成モデル
Groq Whisper Large V3モデル
- Groqアカウントにサインアップする::Groq登録ページ
- APIキーの取得::Groq API KEY
- 環境変数の設定::
cp .env.example .env
API KEYを 環境
ドキュメンテーション
SERVICE_PLATFORM=groq
GROQ_API_KEY=あなたのAPI_KEY
SiliconFlow FunAudioLLM/SenseVoice小型モデル
- SiliconFlowアカウント登録::シリコンフロー登録ページ
- APIキーの取得::シリコンフローAPIキー
- 環境変数の設定::
cp .env.example .env
API KEYを 環境
ドキュメンテーション
SERVICE_PLATFORM=シリコンフロー
SILICONFLOW_API_KEY=あなたのAPI_KEY
ランニングプログラム
- トリガ手順::
python main.py
- 使用方法Optionボタンを押すと音声の録音が開始され、ボタンを離すと録音が終了し、プログラムは自動的に音声翻訳を行い、結果をフィードバックします。
ほら
- バックグラウンド操作このプログラムは常にバックグラウンドで実行する必要があるため、あまり閉じないターミナルやターミナルタブで実行することをお勧めします。
- アクセシビリティ・サポート将来的には、視覚障がい者用のmacOSクライアントも提供する予定です。
簡単な説明
ウィスパー入力は、効率的な音声入力を必要とするユーザーのために、多言語の音声入力をサポートし、迅速かつ正確に音声をテキストに変換する効率的な音声変換ツールです。