Whisperを使えば、あなたの声を無料で複数のフォーマットに書き起こせます！

1.5K 00

会議の録音やインタビューをテキストに書き起こす必要がよくありますか？逐語的な書き起こしには時間と労力がかかるため、AIツールを使って音声記録をテキストに変換したいと思うかもしれません。今回は、OpenAIチームが開発した自動音声認識（ASR）システム「Whisper」を紹介しよう。GithubにあるOpenAIの説明によると、Whisperはオープンソースの音声認識モデルで、現在世界中の約96の言語を認識し、テキストに変換している。中国語の認識精度に関しては、Whisperはかなり高いレベルに達している。その結果ウィスパーオープンソース技術なので、必要なのはGoogleアカウントとセットアップのためのコマンドコードだけだ。一度ダウンロードし、コンピュータにインストールすれば、開発者の制限なく、Whisperを使って音声認識やテープ起こし作業を無料で行うことができます。

ウィスパー・インストール・コード：!pip install git+https://github.com/openai/whisper.git
ffmpegのインストールコード：!sudo apt update && sudo apt install ffmpeg
音声テキスト実行コード：!whisper "文件名（需要替换）.mp3" --model medium

ステップ1：Googleアカウントにログインし、Googleドライブを開き、左上隅にある「+新規作成」をクリックし、スクロールダウンして「その他」を見つけ、「その他のアプリを接続」をクリックする。

ステップ2：初回はGoogle Workspaceアプリのマーケットプレイスが開くので、検索バーに「Google Colaboratory」と入力して選択する。

ステップ 3: インストールするには「Install」をクリックし、続けるには「Continue」を選択します。Googleアカウントでログインするよう求められますので、指示に従ってインストールを完了してください。

ステップ4：Googleドライブのホームページに戻り、左上にある「+新規」を再度クリックし、その他のオプションから「Google Colaboratory」アプリを選択する。

ステップ5：一度開いたファイル名は、後ですぐに参照したり再利用したりするために変更することができます。

ステップ 6: 上部の列の "Execution Phase" をクリックし、"Change Execution Phase Type" を選択します。

ステップ7：この時点で、異なるランタイプと計算リソースを選択することができます。Python 3 "と "T4 GPU "を選択し、"Save "をクリックしてください。

ステップ8：ウィンドウの右上にある「Connect」という文字を見つけ、それをクリックして接続が成功するのを待つ。

ステップ 9: 接続が完了すると、GPU、メモリ、ハードドライブ情報など、コンピュータのパラメータが表示されます。

ステップ 10: 次に、Whisperをインストールするために、Whisperインストールコードとffmpegインストールコードをそれぞれ真ん中のバーの1行目と2行目に入力し、「実行」をクリックします。

ステップ11：インストールが完了したら、左側のフォルダアイコンをクリックして、「ファイルをアップロード」を選択し、書き起こしたいMP3ファイルをアップロードします。

ステップ 12: "+Code "をクリックし、音声テキスト実行コードを入力します。ファイル名と接尾辞がアップロードしたファイルと同じであることを確認し、最後に「実行」をクリックします。

AIハンズオンチュートリアル

この記事は著作権で保護されており、許可なく複製することは禁じられている。

DeepSeekハンズオン：3つのステップによる知識グラフの構築 - 単一抽出、複数パートの融合、トピック生成

AIハンズオンチュートリアル

6ヶ月前

03.5K

DeepSeek＋Difyのプライベート展開：セキュアで制御可能なローカルAIアシスタントシステムの構築

AIハンズオンチュートリアル

6ヶ月前

01.9K

Ollamaのインストールと設定 - macOSシステム

AIハンズオンチュートリアル

5ヶ月前

01.7K

uv共通コマンド

AIハンズオンチュートリアル AI知識ベース

4ヶ月前

02K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

Whisperを使えば、あなたの声を無料で複数のフォーマットに書き起こせます！

ステップ1：Googleアカウントにログインし、Googleドライブを開き、左上隅にある「+新規作成」をクリックし、スクロールダウンして「その他」を見つけ、「その他のアプリを接続」をクリックする。

ステップ2：初回はGoogle Workspaceアプリのマーケットプレイスが開くので、検索バーに「Google Colaboratory」と入力して選択する。

ステップ 3: インストールするには「Install」をクリックし、続けるには「Continue」を選択します。Googleアカウントでログインするよう求められますので、指示に従ってインストールを完了してください。

ステップ4：Googleドライブのホームページに戻り、左上にある「+新規」を再度クリックし、その他のオプションから「Google Colaboratory」アプリを選択する。

ステップ5：一度開いたファイル名は、後ですぐに参照したり再利用したりするために変更することができます。

ステップ 6: 上部の列の "Execution Phase" をクリックし、"Change Execution Phase Type" を選択します。

ステップ7：この時点で、異なるランタイプと計算リソースを選択することができます。Python 3 "と "T4 GPU "を選択し、"Save "をクリックしてください。

ステップ8：ウィンドウの右上にある「Connect」という文字を見つけ、それをクリックして接続が成功するのを待つ。

ステップ 9: 接続が完了すると、GPU、メモリ、ハードドライブ情報など、コンピュータのパラメータが表示されます。

ステップ 10: 次に、Whisperをインストールするために、Whisperインストールコードとffmpegインストールコードをそれぞれ真ん中のバーの1行目と2行目に入力し、「実行」をクリックします。

ステップ11：インストールが完了したら、左側のフォルダアイコンをクリックして、「ファイルをアップロード」を選択し、書き起こしたいMP3ファイルをアップロードします。

ステップ 12: "+Code "をクリックし、音声テキスト実行コードを入力します。ファイル名と接尾辞がアップロードしたファイルと同じであることを確認し、最後に「実行」をクリックします。

Coze + Flying Book Formsを使って、自動化されたEXCEL表データオーガナイザーを作成しましょう！

AIプログラミング：ラバブルの上手な使い方

関連記事

DeepSeekハンズオン：3つのステップによる知識グラフの構築 - 単一抽出、複数パートの融合、トピック生成

DeepSeek＋Difyのプライベート展開：セキュアで制御可能なローカルAIアシスタントシステムの構築

Ollamaのインストールと設定 - macOSシステム

uv共通コマンド

コメントなし

最新コレクション

最新記事

Whisperを使えば、あなたの声を無料で複数のフォーマットに書き起こせます！

ステップ1：Googleアカウントにログインし、Googleドライブを開き、左上隅にある「+新規作成」をクリックし、スクロールダウンして「その他」を見つけ、「その他のアプリを接続」をクリックする。

ステップ2：初回はGoogle Workspaceアプリのマーケットプレイスが開くので、検索バーに「Google Colaboratory」と入力して選択する。

ステップ 3: インストールするには「Install」をクリックし、続けるには「Continue」を選択します。Googleアカウントでログインするよう求められますので、指示に従ってインストールを完了してください。

ステップ4：Googleドライブのホームページに戻り、左上にある「+新規」を再度クリックし、その他のオプションから「Google Colaboratory」アプリを選択する。

ステップ5：一度開いたファイル名は、後ですぐに参照したり再利用したりするために変更することができます。

ステップ 6: 上部の列の "Execution Phase" をクリックし、"Change Execution Phase Type" を選択します。

ステップ7：この時点で、異なるランタイプと計算リソースを選択することができます。Python 3 "と "T4 GPU "を選択し、"Save "をクリックしてください。

ステップ8：ウィンドウの右上にある「Connect」という文字を見つけ、それをクリックして接続が成功するのを待つ。

ステップ 9: 接続が完了すると、GPU、メモリ、ハードドライブ情報など、コンピュータのパラメータが表示されます。

ステップ 10: 次に、Whisperをインストールするために、Whisperインストールコードとffmpegインストールコードをそれぞれ真ん中のバーの1行目と2行目に入力し、「実行」をクリックします。

ステップ11：インストールが完了したら、左側のフォルダアイコンをクリックして、「ファイルをアップロード」を選択し、書き起こしたいMP3ファイルをアップロードします。

ステップ 12: "+Code "をクリックし、音声テキスト実行コードを入力します。ファイル名と接尾辞がアップロードしたファイルと同じであることを確認し、最後に「実行」をクリックします。

Coze + Flying Book Formsを使って、自動化されたEXCEL表データオーガナイザーを作成しましょう！

AIプログラミング：ラバブルの上手な使い方

関連記事

DeepSeekハンズオン：3つのステップによる知識グラフの構築 - 単一抽出、複数パートの融合、トピック生成

DeepSeek＋Difyのプライベート展開：セキュアで制御可能なローカルAIアシスタントシステムの構築

Ollamaのインストールと設定 - macOSシステム

uv共通コマンド

コメントなし

厳選されたAIツール

最新コレクション

最新記事