AIパーソナル・ラーニング
と実践的なガイダンス

PengChengStarling: Whisper-Large v3より小型で高速な多言語音声テキスト変換ツール

この記事は2025-01-30 23:28に更新されました。内容の一部は時間的制約があります!

はじめに

PengChengStarling (PengCheng Labs)は、多言語の自動音声認識(ASR)ツールで、異なる言語の音声を対応するテキストに変換することができる。icefallプロジェクトに基づいて開発されたこのツールキットは、データ処理、モデル学習、推論、微調整、デプロイメントを含む完全な音声認識プロセスを提供する。pengChengStarlingは、中国語、英語、ロシア語、ベトナム語、日本語、タイ語、インドネシア語、アラビア語を含む8言語のストリーミング音声認識をサポートしている。主な用途は、音声アシスタント、翻訳ツール、字幕生成、音声検索などです。モデルサイズはWhisper-Large v3の20%で、推論速度はWhisper-Large v3の7倍です。

特徴は、統一されたフレームワークで多言語の音声入力を処理できること、リアルタイムの音声認識をサポートしていること、話しながら認識できること、国際会議の録音をテキスト化できること、多言語ビデオで自動的に字幕を生成できること、多言語カスタマーサービスシステムであること、などである。

PengChengStarling: 多言語音声テキスト変換ツール、多言語音声認識をサポート-1

 

機能一覧

  • データ処理:複数のデータセットの前処理をサポートし、必要な入力フォーマットを生成。
  • モデルトレーニング:多言語音声認識タスクをサポートするための柔軟なトレーニング設定を提供します。
  • 推論:ストリーミング音声認識をサポートした効率的な推論速度。
  • 微調整:特定のタスク要件に合わせてモデルの微調整をサポートします。
  • デプロイメント: モデルを簡単にデプロイできるように、PyTorchとONNX形式で提供します。

 

ヘルプの使用

設置プロセス

  1. クローン・プロジェクト・ウェアハウス
   git clone https://github.com/yangb05/PengChengStarling
cd PengChengStarling
  1. 依存関係をインストールします:
   pip install -r requirements.txt
export PYTHONPATH=/tmp/PengChengStarling:$PYTHONPATH

データ準備

学習プロセスを開始する前に、まず生データを目的の入力フォーマットに前処理する必要がある。通常、これはzipformer/prepare.py正鵠を得るmake_*_listメソッドを使用してデータリストファイル。スクリプトが完了すると、各データセットに対応するカットとfbankフィーチャーが生成され、PengChengStarlingの入力データとして使用される。

モデルトレーニング

  1. トレーニング・パラメーターの設定コンフィグ・トレインディレクトリでトレーニングに必要なパラメーターを設定する。
  2. トレーニングを開始する:
   ./train.sh

推論

  1. 推論データの準備:データを目的の形式に前処理する。
  2. 推論を始める:
   ./eval.sh

微調整

  1. 微調整されたデータを準備する:データを目的の形式に前処理する。
  2. 微調整を開始する:
   ./train.sh --finetune

展開

PengChengStarlingはPyTorchの状態辞書とONNX形式の2つの形式でモデルを提供します。あなたのニーズに応じて、適切なフォーマットを選択することができます。


無断転載を禁じます:チーフAIシェアリングサークル " PengChengStarling: Whisper-Large v3より小型で高速な多言語音声テキスト変換ツール

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語