会議の録音やインタビューをテキストに書き起こす必要がよくありますか?逐語的な書き起こしには時間と労力がかかるため、AIツールを使って音声記録をテキストに変換したいと思うかもしれません。今回は、OpenAIチームが開発した自動音声認識(ASR)システム「Whisper」を紹介しよう。GithubにあるOpenAIの説明によると、Whisperはオープンソースの音声認識モデルで、現在世界中の約96の言語を認識し、テキストに変換している。中国語の認識精度に関しては、Whisperはかなり高いレベルに達している。その結果 ウィスパー オープンソース技術なので、必要なのはGoogleアカウントとセットアップのためのコマンドコードだけだ。一度ダウンロードし、コンピュータにインストールすれば、開発者の制限なく、Whisperを使って音声認識やテープ起こし作業を無料で行うことができます。
ウィスパー・インストール・コード:
!pip install git+https://github.com/openai/whisper.git
ffmpegのインストールコード:
sudo apt update && sudo apt install ffmpeg
音声テキスト実行コード:
!.whisper "ファイル名(置換が必要).mp3" -モデル medium
ステップ1:Googleアカウントにログインし、Googleドライブを開き、左上隅にある「+新規作成」をクリックし、スクロールダウンして「その他」を見つけ、「その他のアプリを接続」をクリックする。
ステップ2:初回はGoogle Workspaceアプリのマーケットプレイスが開くので、検索バーに「Google Colaboratory」と入力して選択する。
ステップ 3: インストールするには「Install」をクリックし、続けるには「Continue」を選択します。Googleアカウントでログインするよう求められますので、指示に従ってインストールを完了してください。
ステップ4:Googleドライブのホームページに戻り、左上にある「+新規」を再度クリックし、その他のオプションから「Google Colaboratory」アプリを選択する。
ステップ5:一度開いたファイル名は、後ですぐに参照したり再利用したりするために変更することができます。
ステップ 6: 上部の列の "Execution Phase" をクリックし、"Change Execution Phase Type" を選択します。
ステップ7:この時点で、異なるランタイプと計算リソースを選択することができます。Python 3 "と "T4 GPU "を選択し、"Save "をクリックしてください。
ステップ8:ウィンドウの右上にある「Connect」という文字を見つけ、それをクリックして接続が成功するのを待つ。
ステップ 9: 接続が完了すると、GPU、メモリ、ハードドライブ情報など、コンピュータのパラメータが表示されます。
ステップ 10: 次に、Whisperをインストールするために、Whisperインストールコードとffmpegインストールコードをそれぞれ真ん中のバーの1行目と2行目に入力し、「実行」をクリックします。
ステップ11:インストールが完了したら、左側のフォルダアイコンをクリックして、「ファイルをアップロード」を選択し、書き起こしたいMP3ファイルをアップロードします。