はじめに
CapsWriter-Offlineは、開発者HaujetZhaoによってGitHubでホストされているPC用の音声入力および字幕書き起こしツールです。完全にオフラインで動作し、インターネット接続を必要とせず、音声からテキスト、音声/動画ファイルから字幕への文字起こしが可能で、無制限の録音時間、中国語と英語の混在入力、高精度の認識をサポートしています。キーボードショートカット(デフォルトではCapsLock)を押して録音し、離すと自動的に認識結果を入力するため、操作が簡単で効率的です。CapsWriter-OfflineはWindows、MacOS、Linux用のオープンソースで無料であり、効率的な入力と字幕制作を必要とするユーザーに愛用されている。
機能一覧
- 音声テキスト入力ショートカットキーを押して録音し、離すと自動的に音声をテキスト入力に変換します。
- 時間無制限のテープ起こしセグメンテーション認識と重複排除技術により、非常に長い音声コンテンツを正確に書き起こす。
- 音声と映像の書き起こし(字幕付きオーディオとビデオファイルをクライアントにドラッグして、SRTフォーマットの字幕を自動生成できます。
- ホットワード置換中国語、英語、ルールベースのホットワードは、特定の単語の認識精度を向上させるためにカスタマイズすることができます。
- 日記機能録音結果を自動的にMarkdownファイルとして保存し、日付ごとに録音を整理します。
- キーワード日記特定のキーワードで始まるスピーチを認識し、テーマ別のMarkdownファイルとして保存します。
- 高品質な録音保存FFmpegでMP3フォーマットに保存。
- クロスプラットフォーム対応Windows、MacOS、Linuxシステムと互換性があり、さまざまなシナリオのニーズに対応する。
ヘルプの使用
設置プロセス
CapsWriter-Offlineはオープンソースソフトウェアで、GitHubからダウンロードして手動でインストールする必要がある。以下はその詳細な手順である:
1.ソフトウェアのダウンロード
- GitHubのページをご覧ください。
- リリース」セクションで、お使いのシステムに適したバージョンを選択してください:
- Windows 10以上の64ビットシステムダウンロード
CapsWriter-Offline-Windows-64bit.zip
(サーバーサイドとクライアントサイドの両方)とモデルズ.zip
(モデルファイル)。 - Windows 7以上の32ビットシステムダウンロード
CapsWriter-Offline-Windows-32bit-Client.zip
(クライアントのみ、LAN上の他のサーバーに接続する必要がある)。 - MacOS/Linux自分でソースコードからコンパイルするか、コミュニティが提供するパッケージ版を参照する必要があります。
- Windows 10以上の64ビットシステムダウンロード
- ダウンロードが完了したら、ファイルを解凍して
モデルズ.zip
解凍して、以下のソフトウェア・ディレクトリに置く。モデル
フォルダー
2.環境準備
- Windowsユーザー::
- お使いのシステムがWindows 10以上(サーバー側で必要)、4GB以上のRAM(64ビットシステム)であることをご確認ください。
- MP3形式で録音したい場合は、FFmpegをインストールし、環境変数を設定する必要がある。
- MacOSユーザー::
- 取り付け
プロトブuf
(ランニング)brew protobufをインストールする
). - クライアントは
すど
パーミッションを実行するためのデフォルトのショートカットは右シフトです。
- 取り付け
- Linuxユーザー::
- 取り付け
クリップ
(ランニング)sudo apt-get install xclip
)でクリップボード機能をサポートする。
- 取り付け
3.ソフトウェアの実行
- サーバー側解凍してダブルクリック
start_server.exe
(Windows)またはcore_server.py
(Python 3.8-3.10と依存関係が必要)。モデルは起動後にロードされます(約2GBのメモリと50秒を消費します)。 - クライアントダブルクリック
スタート_クライアント.exe
(Windows)またはcore_client.py
(MacOS/Linuxが必要)すど
).起動時にデフォルトのマイクとショートカットを聞く。
主な機能
音声テキスト入力
- クライアントの起動クライアントを実行すると、ソフトウェアはデフォルトでCapsLockキー(MacOSの場合は右シフト)をリッスンします。
- 録音操作::
- CapsLockキーを長押しして録音を開始します(0.3秒未満の録音は無視されます)。
- キーを離すと、ソフトウェアは自動的に音声をテキストに変換し、現在のカーソル位置に入力します。
- セッティングの調整::
- ある
config.py
ファイル内のショートカットキーを変更する(ショートカット
)、出力を貼り付けるかどうか(ペースト
)などのパラメータがある。 - CapsLockの状態を元に戻すには、以下のように設定します。
リストアキー
として設定した。真
.
- ある
音声と映像の書き起こし(字幕付き
- 書類の準備クライアントが起動し、サーバーが正常に動作していることを確認してください。
- ファイルのドラッグ&ドロップオーディオファイルやビデオファイル(MP4やWAVなど)を
スタート_クライアント.exe
上へ - 字幕の生成ソフトウェアが自動的に音声コンテンツを認識し、SRTファイルを生成します。
- ほら認識時間はファイルの長さに関係します。
ホットワード置換
- ホットワード・ファイルの編集ソフトウェア・ディレクトリで
hot-zh.txt
(中国語)、hot-en.txt
(英語)、ホットルール.txt
(カスタムルール)。 - ホットワードの追加::
- 1行に1つの中国語のホットワード(例:「人工知能」)、ピンイン置換に基づく。
- スペルの置換に基づく英語のホットワード、1行に1つ(例えば "AI")。
- カスタムルールは等号で区切られる(例:"milliampere hour = mAh")。
- 発効形態再起動は不要で、クライアントがホットワードを動的にロードして用語認識を向上させます。
日記機能
- 日記の有効化デフォルトで有効になっており、各録音結果は
年/月/日.md
ドキュメンテーション - 録音保存オーディオファイルは自動的に預けられる
年/月/資産
フォルダ、WAVまたはMP3形式をサポートしています。 - キーワード日記::
- コンパイラ
キーワード.txt
各行にキーワード(例:"ミーティング")を追加する。 - 音声がキーワードで始まる場合、結果は別途
年/月/キーワード-日付.md
.
- コンパイラ
- リダンダンシークリアランス同梱のPythonスクリプトを実行し、Markdownで参照されていないオーディオファイルを削除します。
操作フローデモ
- シナリオ1:素早くメモを入力する
クライアントを開く→CapsLockを押し続ける→「今日の午後、プロジェクトの進捗状況についてミーティングをする」と言う→キーを離す→テキストが自動的に文書に入力される→日記ファイルとして保存。 - シナリオ2:ビデオから字幕へ
MP4ファイルを用意→クライアントにドラッグ→処理を待つ(進行状況はターミナルに表示される)→生成されたSRTファイルを確認→動画編集ソフトに取り込んで使用。
ほら
- サーバーが起動していない場合、クライアントは接続エラーを表示します。
127.0.0.1:6016
(デフォルトアドレス)。 - MacOSユーザーはマイク権限を許可する必要があり、ターミナルからマイクを
すど
クライアントを実行する。 - ホットワードが多すぎると、3ms/10,000エントリーのレイテンシが増加する可能性があるため、共通ワードのスリム化を推奨する。