はじめに
FireRedASRは、Little Red Book FireRedチームによって開発され、オープンソース化された音声認識モデルで、自動音声認識(ASR)ソリューションに高精度で多言語サポートを提供することに重点を置いています。FireRedASRは主に2つのバージョンに分かれています。FireRedASR-LLMは極めて高い精度を追求し、プロフェッショナルなニーズに適しています。FireRedASR-AEDは効率とパフォーマンスのバランスをとり、リアルタイムアプリケーションに適しています。2025年現在、このモデルは中国語マンダリン試験(CER 3.05%)で最適記録を樹立し、マルチシナリオテストでも好成績を収め、インテリジェントアシスタント、ビデオ字幕生成などの分野に広く応用されている。
FireRedASR: WebUI ワンクリックインストーラ: https://github.com/jianchang512/fireredasr-ui
機能一覧
- 業界トップクラスの認識精度で、北京語、中国語方言、英語の音声合成をサポート。
- 歌詞認識機能を提供し、特にマルチメディアコンテンツの処理に適しています。
- FireRedASR-LLMとFireRedASR-AEDの2つのバージョンは、それぞれ高精度と高効率推論のニーズを満たすために含まれています。
- コミュニティによる二次開発やカスタマイズされたアプリケーションをサポートするオープンソースのモデルと推論コード。
- 短い動画、ライブストリーミング、音声入力など、さまざまな音声入力シーンに対応できる。
- バッチ音声処理をサポートしており、大規模なデータ転写作業に適しています。
ヘルプの使用
設置プロセス
FireRedASRを動作させるには、特定の開発環境設定が必要です:
1.プロジェクト・ウェアハウスのクローン
ターミナルを開き、以下のコマンドを入力してFireRedASRプロジェクトをローカルにクローンします:
git clone https://github.com/FireRedTeam/FireRedASR.git
終了したら、プロジェクト・カタログにアクセスする:
cd FireRedASR
- Python環境の作成
依存関係を確実に分離するために、Condaを使って別のPython環境を作成することを推奨する。以下のコマンドを実行してください:
conda create --name fireredasr python=3.10
環境を活性化させる:
コンダ・アクティベート・ファイヤーレダスル
- 依存関係のインストール
このプロジェクトは要件.txt
ファイルには必要な依存関係がすべて含まれている。インストール・コマンドは以下の通り:
pip install -r requirements.txt
インストールが完了するまで待ちます。ネットワークがスムーズであることを確認し、ダウンロードを高速化するために科学的なインターネットツールが必要な場合があります。
- 訓練済みモデルのダウンロード
- ファイアレッドASR-AED-LGitHubまたはHugging Faceから直接学習済みモデルをダウンロードし、それを
事前学習済みモデル/FireRedASR-AED-L
フォルダー - ファイアレッドASR-LLM-Lモデルのダウンロードに加えて、Qwen2-7B-Instructモデルを
事前訓練済みモデル
フォルダにファイアレッドASR-LLM-L
ディレクトリにソフトリンクを作成する:
ln-s .../Qwen2-7B-インストラクション
- インストールの確認
以下のコマンドを実行して、インストールが成功したかどうかを確認する:
python speech2text.py --help
ヘルプメッセージが表示されれば、環境は正しく設定されている。
使用方法
FireRedASRは、コマンドラインとPython APIの2つの方法を提供しており、以下は操作プロセスの主な機能の詳細です。
コマンドライン操作
- 単一ファイル転写(AEDモデル)
FireRedASR-AED-Lを使用して音声ファイル(最大60秒)を処理します:
python speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "aed" --model_dir pretrained_models/FireRedASR-AED-L
--wav_path
音声ファイルのパスを指定します。--asr_type
この場合は "aed "です。--モデル・ディレクトリ
モデルフォルダを指定します。
出力は端末に表示される。例えば、書き起こされたテキスト・コンテンツ。
- 単一ファイル転写(LLMモデル)
FireRedASR-LLM-Lを使用して音声を処理します(最大30秒):
python speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L
パラメータの意味は上記と同じで、出力は転写されたテキストである。
PythonのAPI操作
- モデルの読み込みと書き起こし
PythonスクリプトでFireRedASRモデルを呼び出す:
from fireredasr.models.fireredasr import FireRedAsr
# AEDモデルを初期化する
model = FireRedAsr.from_pretrained("aed", "pretrained_models/FireRedASR-AED-L")
batch_uttid = ["BAC009S0764W0121"] とする。
batch_wav_path = ["examples/wav/BAC009S0764W0121.wav"] バッチパスは、以下のように設定する。
results = model.transcribe(
batch_uttid, batch_wav_path, {"use_gpu".
use_gpu": 1, "beam_size": 3, "nbest": 1, "decode_max_len": 0} {"use_gpu": 1, "beam_size": 3, "nbest": 1, "decode_max_len": 0}.
)
print(results)
- フロム_プレトレイン指定されたモデルをロードします。
- 書き写す書き起こしタスクを実行し、結果をテキストのリストとして返す。
- 結果を最適化するためのパラメータ調整
- 使用GPUGPUアクセラレーションを使用する場合は1、CPUを使用する場合は0に設定します。
- ビームサイズデフォルトは3。
- 最高デフォルトは 1 です。
注目の機能操作
- 歌詞認識
FireRedASR-LLMは歌詞認識に優れています。曲の音声を入力し(30秒以上かからないようにしてください)、実行します:python speech2text.py --wav_path your_song.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L
**業界トップクラスの認識率で曲のテキストとして出力。 **
- 多言語サポート
方言や英語音声の場合は、上記のコマンドまたはAPIを直接使用すると、モデルが自動的に適応されます。例えば、英語の音声を処理する場合:model = FireRedAsr.from_pretrained("llm", "pretrained_models/FireRedASR-LLM-L") results = model.transcribe(["english_audio"],["path/to/english.wav"],{"use_gpu":1}) print(results)
ほら
- オーディオの長さ制限AEDは60秒までサポートされるが、それを超えると幻覚の問題が発生する可能性がある。LLMは30秒までサポートされるが、それ以上の長時間の行動は未定。
- バッチファイルパフォーマンスの劣化を避けるため、入力音声の長さが同じになるようにしてください。
- ハードウェア要件CPUの処理速度が遅くなる可能性があるため、大規模なモデルの実行にはGPUを使用することをお勧めします。
以上の手順により、ユーザーはFireRedASRを簡単に使い始めることができ、インストールから使用までの全プロセスを完了することができます。