PengChengStarling: Whisper-Large v3より小型で高速な多言語音声テキスト変換ツール

中国初のAI IDE インテリジェント・プログラミング・ソフトウェア 🚀体験への招待 Trae 中国語版ダウンロードDeepSeek-R1とDoubao-proは無制限で利用できる！

はじめに

PengChengStarling (PengCheng Labs)は、多言語の自動音声認識(ASR)ツールで、異なる言語の音声を対応するテキストに変換することができる。icefallプロジェクトに基づいて開発されたこのツールキットは、データ処理、モデル学習、推論、微調整、デプロイメントを含む完全な音声認識プロセスを提供する。pengChengStarlingは、中国語、英語、ロシア語、ベトナム語、日本語、タイ語、インドネシア語、アラビア語を含む8言語のストリーミング音声認識をサポートしている。主な用途は、音声アシスタント、翻訳ツール、字幕生成、音声検索などです。モデルサイズはWhisper-Large v3の20%で、推論速度はWhisper-Large v3の7倍です。

特徴は、統一されたフレームワークで多言語の音声入力を処理できること、リアルタイムの音声認識をサポートしていること、話しながら認識できること、国際会議の録音をテキスト化できること、多言語ビデオで自動的に字幕を生成できること、多言語カスタマーサービスシステムであること、などである。

PengChengStarling: 多言語音声テキスト変換ツール、多言語音声認識をサポート-1

機能一覧

データ処理：複数のデータセットの前処理をサポートし、必要な入力フォーマットを生成。
モデルトレーニング：多言語音声認識タスクをサポートするための柔軟なトレーニング設定を提供します。
推論：ストリーミング音声認識をサポートした効率的な推論速度。
微調整：特定のタスク要件に合わせてモデルの微調整をサポートします。
デプロイメント: モデルを簡単にデプロイできるように、PyTorchとONNX形式で提供します。

ヘルプの使用

設置プロセス

クローン・プロジェクト・ウェアハウス

   git clone https://github.com/yangb05/PengChengStarling
cd PengChengStarling

依存関係をインストールします：

   pip install -r requirements.txt
export PYTHONPATH=/tmp/PengChengStarling:$PYTHONPATH

データ準備

学習プロセスを開始する前に、まず生データを目的の入力フォーマットに前処理する必要がある。通常、これはzipformer/prepare.py正鵠を得るmake_*_listメソッドを使用してデータリストファイル。スクリプトが完了すると、各データセットに対応するカットとfbankフィーチャーが生成され、PengChengStarlingの入力データとして使用される。

モデルトレーニング

トレーニング・パラメーターの設定コンフィグ・トレインディレクトリでトレーニングに必要なパラメーターを設定する。
トレーニングを開始する：

   ./train.sh

推論

推論データの準備：データを目的の形式に前処理する。
推論を始める：

   ./eval.sh

微調整

微調整されたデータを準備する：データを目的の形式に前処理する。
微調整を開始する：

   ./train.sh --finetune

展開

PengChengStarlingはPyTorchの状態辞書とONNX形式の2つの形式でモデルを提供します。あなたのニーズに応じて、適切なフォーマットを選択することができます。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。