ウィスパーインプット：Groqを使った無料・高速の音声テキスト起こしサービス

71.1K 00

はじめに

ウィスパー Inputはオープンソースの音声書き起こしツールで、Optionボタンを押すことで音声の録音を開始し、ボタンを離すことで録音を終了することができる。このツールはグロック Whisper Large V3 Turboモデルは、音声翻訳を実行し、1～2秒で高速フィードバックを提供します。シリコンフロー FunAudioLLM/SenseVoiceSmallをホストとし、より高速な認識と高い精度を実現したモデル。視覚障害者など、効率的な音声入力を必要とするユーザーに特に適しています。

機能一覧

音声録音と翻訳Optionボタンを押すと録音が開始され、ボタンを持ち上げると録音が終了し、自動的に機種に電話して翻訳を依頼します。
多言語サポート多言語での音声書き起こしをサポートします。
迅速なフィードバックほとんどの音声入力は1～2秒以内に返すことができます。
利用無料GroqとSiliconFlowが無償で提供する無償利用に対応。
句読点のサポート句読点は、翻訳されたテキストの読みやすさを向上させるために自動的に追加されます。
アクセシビリティ・サポート視覚障害者のためのシンプルなmacOSクライアントが開発されています。

ヘルプの使用

設置プロセス

前提条件Pythonのバージョンが3.10以上であることを確認してください。
クローンプロジェクト::

   git clone https://github.com/ErlichLiu/Whisper-Input.git

仮想環境の構築::

   python -m venv venv

仮想環境をアクティブにする::
- macOS/Linux。 bash source venv/bin/activate
- ウィンドウズ bash .\venv\Scripts\activate
依存関係のインストール::

   pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt

構成モデル

Groq Whisper Large V3モデル

Groqアカウントにサインアップする::Groq登録ページ
APIキーの取得::Groq API KEY
環境変数の設定::

   cp .env.example .env

API KEYを .env ドキュメンテーション

   SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY

SiliconFlow FunAudioLLM/SenseVoice小型モデル

SiliconFlowアカウント登録::シリコンフロー登録ページ
APIキーの取得::シリコンフローAPIキー
環境変数の設定::

   cp .env.example .env

API KEYを .env ドキュメンテーション

   SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY

ランニングプログラム

トリガ手順::

   python main.py

使用方法Optionボタンを押すと音声の録音が開始され、ボタンを離すと録音が終了し、プログラムは自動的に音声翻訳を行い、結果をフィードバックします。

ほら

バックグラウンド操作このプログラムは常にバックグラウンドで実行する必要があるため、あまり閉じないターミナルやターミナルタブで実行することをお勧めします。
アクセシビリティ・サポート将来的には、視覚障がい者用のmacOSクライアントも提供する予定です。

簡単な説明

ウィスパー入力は、効率的な音声入力を必要とするユーザーのために、多言語の音声入力をサポートし、迅速かつ正確に音声をテキストに変換する効率的な音声変換ツールです。

OpenPromptStudio：可视化编辑、管理图像提示词，同步自己的Notion提示词表

OpenPromptStudio：イメージプロンプトを視覚的に編集、管理し、独自のNotionプロンプトリストを同期します！

1年前

047.7K

PDF to Podcast：PDFをポッドキャストに変換するユーティリティ

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

050.5K

TryOffAnyone: 人物の衣服をタイル状の衣服表示画像として抽出するAIツール

1年前

055.1K

SVFR：ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

1年前

059.1K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

ウィスパーインプット：Groqを使った無料・高速の音声テキスト起こしサービス

はじめに

機能一覧

ヘルプの使用

設置プロセス

構成モデル

Groq Whisper Large V3モデル

SiliconFlow FunAudioLLM/SenseVoice小型モデル

ランニングプログラム

ほら

簡単な説明

Azure TTS Importer：音声合成サービスを読み上げソフトウェアに統合する

Quadratic: AI対話とコード実行を統合したオンラインデータ分析フォーム

関連記事

OpenPromptStudio：イメージプロンプトを視覚的に編集、管理し、独自のNotionプロンプトリストを同期します！

PDF to Podcast：PDFをポッドキャストに変換するユーティリティ

TryOffAnyone: 人物の衣服をタイル状の衣服表示画像として抽出するAIツール

SVFR：ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

コメントなし

最新コレクション

最新記事

ウィスパーインプット：Groqを使った無料・高速の音声テキスト起こしサービス

はじめに

機能一覧

ヘルプの使用

設置プロセス

構成モデル

Groq Whisper Large V3モデル

SiliconFlow FunAudioLLM/SenseVoice小型モデル

ランニングプログラム

ほら

簡単な説明

Azure TTS Importer：音声合成サービスを読み上げソフトウェアに統合する

Quadratic: AI対話とコード実行を統合したオンラインデータ分析フォーム

関連記事

OpenPromptStudio：イメージプロンプトを視覚的に編集、管理し、独自のNotionプロンプトリストを同期します！

PDF to Podcast：PDFをポッドキャストに変換するユーティリティ

TryOffAnyone: 人物の衣服をタイル状の衣服表示画像として抽出するAIツール

SVFR：ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

コメントなし

厳選されたAIツール

最新コレクション

最新記事