はじめに
FunASRはアリババのDharma Instituteによって開発されたオープンソースの音声認識ツールキットで、学術研究と産業アプリケーションの橋渡しをする。FunASRは、音声認識(ASR)、音声終端検出(VAD)、句読点復元、言語モデリング、話者検証、話者分離、複数人対話音声認識など、幅広い音声認識機能をサポートしています。FunASRは、事前に学習させたモデルの推論と微調整をサポートする便利なスクリプトとチュートリアルを提供し、ユーザーが効率的な音声認識サービスを迅速に構築できるよう支援します。
様々なオーディオ・ビデオ形式の入力をサポートし、数十時間に及ぶ長時間のオーディオやビデオを句読点を含むテキストに識別することができ、数百の同時転写要求をサポート 中国語、英語、日本語、広東語、韓国語をサポート。
オンライン経験:https://www.funasr.com/
機能一覧
- 音声認識(ASR):オフラインおよびリアルタイムの音声認識をサポート。
- 音声終点検出(VAD):音声信号の開始と終了を検出する。
- 句読点の回復:テキストの読みやすさを向上させるために句読点を自動的に追加します。
- 言語モデル:複数の言語モデルの統合をサポート。
- 発言者確認:発言者の身元を確認する。
- 話者分離:異なる話者の音声を区別すること。
- 複数会話の音声認識:複数同時会話の音声認識をサポート。
- モデルの推論と微調整:事前に訓練されたモデルの推論と微調整機能を提供する。
ヘルプの使用
設置プロセス
- 環境準備::
- Python 3.7以上がインストールされていることを確認する。
- 必要な依存ライブラリをインストールする:
pip install -r requirements.txt
- ダウンロードモデル::
- ModelScopeまたはHuggingFaceから訓練済みモデルをダウンロードする:
ギット クローン https://github.com/modelscope/FunASR.git cd FunASR
- ModelScopeまたはHuggingFaceから訓練済みモデルをダウンロードする:
- 設定環境::
- 環境変数を設定する:
輸出 MODEL_DIR=/path/to/your/model
- 環境変数を設定する:
使用プロセス
- 音声認識::
- 音声認識にはコマンドラインを使う:
python recognise.py --model paraformer --input your_audio.wav
- Pythonコードによる音声認識:
より ファナスル インポート オートモデル model = AutoModel.from_pretrained(「パラフォーマー) result = model.recognise()"your_audio.wav") プリント結果
- 音声認識にはコマンドラインを使う:
- 音声エンドポイント検出::
- 音声エンドポイントの検出にはコマンドラインを使用する:
python vad.py --model fsmn-vad --input your_audio.wav
- Pythonコードによる音声エンドポイント検出:
より ファナスル インポート オートモデル vad_model = AutoModel.from_pretrained()「fsmn-vad) vad_result = vad_model.detect()"your_audio.wav") プリント(vad_result)
- 音声エンドポイントの検出にはコマンドラインを使用する:
- 句読点の回復::
- 句読点の回復にはコマンドラインを使用する:
python punctuate.py --model ct-punc --input your_text.txt
- Pythonコードによる句読点の回復:
より ファナスル インポート オートモデル punc_model = AutoModel.from_pretrained()"ct-punc") punc_result = punc_model.punctuate()"your_text.txt") プリント(punc_結果)
- 句読点の回復にはコマンドラインを使用する:
- スピーカー検証::
- スピーカーの確認にはコマンドラインを使用する:
python verify.py --model speaker-verification --input your_audio.wav
- Pythonコードによるスピーカー検証:
より ファナスル インポート オートモデル verify_model = AutoModel.from_pretrained()「スピーカー検証) verify_result = verify_model.verify()"your_audio.wav") プリント(ベリファイ結果)
- スピーカーの確認にはコマンドラインを使用する:
- マルチトークの音声認識::
- コマンドラインを使った複数人での会話の音声認識:
python multi_asr.py --model multi-talker-asr --input your_audio.wav
- Pythonコードによる多人数会話の音声認識:
より ファナスル インポート オートモデル multi_asr_model = AutoModel.from_pretrained()"マルチトーカー・アスール") multi_asr_result = multi_asr_model.recognise()"your_audio.wav") プリント(マルチ_asr_結果)
- コマンドラインを使った複数人での会話の音声認識: