PengChengStarling: более компактный и быстрый многоязычный инструмент для преобразования речи в текст, чем Whisper-Large v3

Общее введение

PengChengStarling (PengCheng Labs) - это многоязычный инструмент автоматического распознавания речи (ASR), способный преобразовывать речь на разных языках в соответствующий текст. Этот инструментарий разработан на основе проекта icefall и обеспечивает полный процесс распознавания речи, включая обработку данных, обучение модели, вывод, тонкую настройку и развертывание. pengChengStarling поддерживает потоковое распознавание речи на восьми языках, включая китайский, английский, русский, вьетнамский, японский, тайский, индонезийский и арабский. Основные сценарии его применения включают голосовые помощники, средства перевода, генерацию субтитров и голосовой поиск. Размер модели составляет 20% от Whisper-Large v3, а скорость распознавания в 7 раз выше, чем у Whisper-Large v3.

Его особенности заключаются в том, что он может обрабатывать многоязычный речевой ввод в единой структуре, поддерживать распознавание речи в реальном времени, распознавание во время разговора, может использоваться как запись международной конференции в текст, многоязычное видео автоматически генерирует субтитры, кросс-язычная система обслуживания клиентов.

PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具

 

Список функций

  • Обработка данных: поддерживает предварительную обработку нескольких наборов данных для создания требуемого формата входных данных.
  • Обучение модели: обеспечивает гибкие конфигурации обучения для поддержки многоязычных задач распознавания речи.
  • Вывод: эффективная скорость вывода с поддержкой потокового распознавания речи.
  • Тонкая настройка: поддерживает тонкую настройку моделей в соответствии с требованиями конкретных задач.
  • Развертывание: предоставляет модели в форматах PyTorch и ONNX для легкого развертывания.

 

Использование помощи

Процесс установки

  1. Хранилище проектов клонирования:
   git clone https://github.com/yangb05/PengChengStarling
cd PengChengStarling
  1. Установите зависимость:
   pip install -r requirements.txt
export PYTHONPATH=/tmp/PengChengStarling:$PYTHONPATH

Подготовка данных

Прежде чем начать процесс обучения, исходные данные необходимо предварительно обработать и преобразовать в нужный формат. Как правило, для этого необходимо адаптироватьzipformer/prepare.pyпопал в точкуmake_*_listметод для созданияdata.listФайл. После завершения сценарий сгенерирует соответствующие разрезы и fbank-функции для каждого набора данных, которые будут использованы в качестве входных данных для PengChengStarling.

обучение модели

  1. Настройте параметры обучения: вconfig_trainкаталог для настройки параметров, необходимых для обучения.
  2. Начните обучение:
   ./train.sh

вывод

  1. Подготовка данных для выводов: предварительная обработка данных в нужном формате.
  2. Начните рассуждать:
   ./eval.sh

тонкая настройка

  1. Подготовка данных для тонкой настройки: предварительная обработка данных в нужный формат.
  2. Приступайте к тонкой настройке:
   ./train.sh --finetune

развертывания

PengChengStarling предоставляет модели в двух форматах: словарь состояний PyTorch и формат ONNX. Вы можете выбрать подходящий формат для развертывания в зависимости от ваших потребностей.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...