FunASR: Инструментарий для распознавания речи с открытым исходным кодом, разделение дикторов / распознавание диалоговой речи нескольких человек

Общее введение

FunASR - это набор инструментов для распознавания речи с открытым исходным кодом, разработанный Институтом Дарма компании Alibaba для объединения академических исследований и промышленных приложений. Он поддерживает широкий спектр функций распознавания речи, включая распознавание речи (ASR), обнаружение голосовых точек (VAD), восстановление пунктуации, языковое моделирование, верификацию диктора, разделение дикторов и распознавание речи в многоместном диалоге. FunASR предоставляет удобные скрипты и учебники для поддержки вывода и тонкой настройки предварительно обученных моделей, помогая пользователям быстро создавать эффективные сервисы распознавания речи.

Поддерживает различные форматы аудио и видео, может распознать десятки часов длинного аудио и видео в текст с пунктуацией, поддерживает сотни запросов для одновременной транскрипции Поддерживает китайский, английский, японский, кантонский и корейский языки.

 

Опыт работы в Интернете: https://www.funasr.com/

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

 

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

Программный пакет FunASR для транскрипции файлов в автономном режиме предоставляет мощный сервис транскрипции речевых файлов в автономном режиме. Благодаря полной системе распознавания речи, сочетающей в себе функции обнаружения конечных точек речи, распознавания речи, пунктуации и другие модели, он может распознавать десятки часов длинных аудио- и видеозаписей в виде пунктуационного текста и поддерживает сотни запросов на одновременную транскрипцию. На выходе получается пунктуационный текст с временными метками на уровне слов и поддержкой ITN и заданных пользователем "горячих слов". Интеграция с ffmpeg на стороне сервера, поддержка различных входных аудио- и видеоформатов. Пакет предоставляет html, python, c++, java и c# и другие языки программирования клиента, пользователь может непосредственно использовать и дальнейшее развитие.

 

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

Программный пакет FunASR для диктовки речи в реальном времени объединяет в себе версии моделей обнаружения конечных точек речи, распознавания речи, распознавания голоса и моделей предсказания пунктуации в реальном времени. Используя синергию нескольких моделей, он может не только передавать речь в текст в реальном времени, но и корректировать выходной текст с высокой точностью транскрипции в конце предложения, выводить текст с пунктуацией, а также поддерживать несколько запросов. В соответствии с различными пользовательскими сценариями поддерживаются три режима обслуживания: диктовка речи в реальном времени (онлайн), транскрипция предложений в нереальном времени (офлайн) и интегрированная совместная работа в реальном и нереальном времени (2pass). Программный пакет предоставляет различные языки программирования, такие как html, python, c++, java и c# клиент, пользователи могут непосредственно использовать и развивать.

 

Список функций

  • Распознавание речи (ASR): поддерживает распознавание речи в автономном режиме и в режиме реального времени.
  • Обнаружение конечной точки голоса (VAD): определяет начало и конец голосового сигнала.
  • Восстановление пунктуации: автоматическое добавление знаков препинания для улучшения читабельности текста.
  • Языковые модели: поддерживает интеграцию нескольких языковых моделей.
  • Верификация говорящего: проверка личности говорящего.
  • Разделение дикторов: различение речи разных дикторов.
  • Распознавание речи для нескольких разговоров: поддержка распознавания речи для нескольких одновременных разговоров.
  • Вывод и тонкая настройка модели: предоставляет функции вывода и тонкой настройки для предварительно обученных моделей.

 

Использование помощи

Процесс установки

  1. Подготовка к защите окружающей среды::
    • Убедитесь, что установлен Python 3.7 или выше.
    • Установите необходимые библиотеки зависимостей:
      pip install -r requirements.txt
      
  2. Скачать модели::
    • Загрузите предварительно обученные модели из ModelScope или HuggingFace:
      git clone https://github.com/modelscope/FunASR.git
      cd FunASR
      
  3. Конфигурационная среда::
    • Настройте переменные окружения:
      export MODEL_DIR=/path/to/your/model
      

Процесс использования

  1. распознавание речи::
    • Используйте командную строку для распознавания речи:
      python recognize.py --model paraformer --input your_audio.wav
      
    • Распознавание речи с помощью кода Python:
      from funasr import AutoModel
      model = AutoModel.from_pretrained("paraformer")
      result = model.recognize("your_audio.wav")
      print(result)
      
  2. обнаружение голосовых конечных точек::
    • Используйте командную строку для обнаружения голосовых конечных точек:
      python vad.py --model fsmn-vad --input your_audio.wav
      
    • Обнаружение конечных точек речи с помощью кода Python:
      from funasr import AutoModel
      vad_model = AutoModel.from_pretrained("fsmn-vad")
      vad_result = vad_model.detect("your_audio.wav")
      print(vad_result)
      
  3. Восстановление знаков препинания::
    • Используйте командную строку для восстановления пунктуации:
      python punctuate.py --model ct-punc --input your_text.txt
      
    • Восстановление пунктуации с помощью кода Python:
      from funasr import AutoModel
      punc_model = AutoModel.from_pretrained("ct-punc")
      punc_result = punc_model.punctuate("your_text.txt")
      print(punc_result)
      
  4. Проверка спикера::
    • Для проверки динамика используйте командную строку:
      python verify.py --model speaker-verification --input your_audio.wav
      
    • Проверка диктора с помощью кода на Python:
      from funasr import AutoModel
      verify_model = AutoModel.from_pretrained("speaker-verification")
      verify_result = verify_model.verify("your_audio.wav")
      print(verify_result)
      
  5. Распознавание речи при многократном разговоре::
    • Распознавание речи для многопользовательских диалогов с помощью командной строки:
      python multi_asr.py --model multi-talker-asr --input your_audio.wav
      
    • Распознавание речи при разговоре нескольких человек с помощью кода на Python:
      from funasr import AutoModel
      multi_asr_model = AutoModel.from_pretrained("multi-talker-asr")
      multi_asr_result = multi_asr_model.recognize("your_audio.wav")
      print(multi_asr_result)
      
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...