FunASR: Инструментарий для распознавания речи с открытым исходным кодом, разделение дикторов / распознавание диалоговой речи нескольких человек

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

139.3K 00

Общее введение

FunASR - это набор инструментов для распознавания речи с открытым исходным кодом, разработанный Институтом Дарма компании Alibaba для объединения академических исследований и промышленных приложений. Он поддерживает широкий спектр функций распознавания речи, включая распознавание речи (ASR), обнаружение голосовых точек (VAD), восстановление пунктуации, языковое моделирование, верификацию диктора, разделение дикторов и распознавание речи в многоместном диалоге. FunASR предоставляет удобные скрипты и учебники для поддержки вывода и тонкой настройки предварительно обученных моделей, помогая пользователям быстро создавать эффективные сервисы распознавания речи.

Поддерживает различные форматы аудио и видео, может распознать десятки часов длинного аудио и видео в текст с пунктуацией, поддерживает сотни запросов для одновременной транскрипции Поддерживает китайский, английский, японский, кантонский и корейский языки.

Опыт работы в Интернете: https://www.funasr.com/

Программный пакет FunASR для транскрипции файлов в автономном режиме предоставляет мощный сервис транскрипции речевых файлов в автономном режиме. Благодаря полной системе распознавания речи, сочетающей в себе функции обнаружения конечных точек речи, распознавания речи, пунктуации и другие модели, он может распознавать десятки часов длинных аудио- и видеозаписей в виде пунктуационного текста и поддерживает сотни запросов на одновременную транскрипцию. На выходе получается пунктуационный текст с временными метками на уровне слов и поддержкой ITN и заданных пользователем "горячих слов". Интеграция с ffmpeg на стороне сервера, поддержка различных входных аудио- и видеоформатов. Пакет предоставляет html, python, c++, java и c# и другие языки программирования клиента, пользователь может непосредственно использовать и дальнейшее развитие.

Программный пакет FunASR для диктовки речи в реальном времени объединяет в себе версии моделей обнаружения конечных точек речи, распознавания речи, распознавания голоса и моделей предсказания пунктуации в реальном времени. Используя синергию нескольких моделей, он может не только передавать речь в текст в реальном времени, но и корректировать выходной текст с высокой точностью транскрипции в конце предложения, выводить текст с пунктуацией, а также поддерживать несколько запросов. В соответствии с различными пользовательскими сценариями поддерживаются три режима обслуживания: диктовка речи в реальном времени (онлайн), транскрипция предложений в нереальном времени (офлайн) и интегрированная совместная работа в реальном и нереальном времени (2pass). Программный пакет предоставляет различные языки программирования, такие как html, python, c++, java и c# клиент, пользователи могут непосредственно использовать и развивать.

Список функций

Распознавание речи (ASR): поддерживает распознавание речи в автономном режиме и в режиме реального времени.
Обнаружение конечной точки голоса (VAD): определяет начало и конец голосового сигнала.
Восстановление пунктуации: автоматическое добавление знаков препинания для улучшения читабельности текста.
Языковые модели: поддерживает интеграцию нескольких языковых моделей.
Верификация говорящего: проверка личности говорящего.
Разделение дикторов: различение речи разных дикторов.
Распознавание речи для нескольких разговоров: поддержка распознавания речи для нескольких одновременных разговоров.
Вывод и тонкая настройка модели: предоставляет функции вывода и тонкой настройки для предварительно обученных моделей.

Использование помощи

Процесс установки

Подготовка к защите окружающей среды::
- Убедитесь, что установлен Python 3.7 или выше.
- Установите необходимые библиотеки зависимостей:
```
pip install -r requirements.txt
```
Скачать модели::
- Загрузите предварительно обученные модели из ModelScope или HuggingFace:
```
git clone https://github.com/modelscope/FunASR.git
cd FunASR
```
Конфигурационная среда::
- Настройте переменные окружения:
```
export MODEL_DIR=/path/to/your/model
```

Процесс использования

распознавание речи::
- Используйте командную строку для распознавания речи:
```
python recognize.py --model paraformer --input your_audio.wav
```
- Распознавание речи с помощью кода Python:
```
from funasr import AutoModel
model = AutoModel.from_pretrained("paraformer")
result = model.recognize("your_audio.wav")
print(result)
```
обнаружение голосовых конечных точек::
- Используйте командную строку для обнаружения голосовых конечных точек:
```
python vad.py --model fsmn-vad --input your_audio.wav
```
- Обнаружение конечных точек речи с помощью кода Python:
```
from funasr import AutoModel
vad_model = AutoModel.from_pretrained("fsmn-vad")
vad_result = vad_model.detect("your_audio.wav")
print(vad_result)
```
Восстановление знаков препинания::
- Используйте командную строку для восстановления пунктуации:
```
python punctuate.py --model ct-punc --input your_text.txt
```
- Восстановление пунктуации с помощью кода Python:
```
from funasr import AutoModel
punc_model = AutoModel.from_pretrained("ct-punc")
punc_result = punc_model.punctuate("your_text.txt")
print(punc_result)
```

Проверка спикера::

Для проверки динамика используйте командную строку:
```
python verify.py --model speaker-verification --input your_audio.wav
```

Проверка диктора с помощью кода на Python:

from funasr import AutoModel
verify_model = AutoModel.from_pretrained("speaker-verification")
verify_result = verify_model.verify("your_audio.wav")
print(verify_result)

Распознавание речи при многократном разговоре::
- Распознавание речи для многопользовательских диалогов с помощью командной строки:
```
python multi_asr.py --model multi-talker-asr --input your_audio.wav
```
- Распознавание речи при разговоре нескольких человек с помощью кода на Python:
```
from funasr import AutoModel
multi_asr_model = AutoModel.from_pretrained("multi-talker-asr")
multi_asr_result = multi_asr_model.recognize("your_audio.wav")
print(multi_asr_result)
```

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Speech to Text

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

Последние ресурсы по искусственному интеллекту

1 месяц назад

016.1K

Wan-Move - открытый фреймворк для создания видео с помощью искусственного интеллекта, разработанный Али Тонги совместно с Цинхуа и другими.

Последние ресурсы по искусственному интеллекту

3 месяца назад

024.9K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Outlines: генерирует структурированный текст с помощью регулярных выражений, JSON или моделей Pydantic.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

075.6K

Kraftful: ИИ автоматически собирает и анализирует многоканальные отзывы пользователей

Последние ресурсы по искусственному интеллекту Робот для обслуживания клиентов # AI # Анализ данных искусственного интеллекта # AI Marketing

12 месяцев назад

050.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

FunASR: Инструментарий для распознавания речи с открытым исходным кодом, разделение дикторов / распознавание диалоговой речи нескольких человек

Общее введение

Список функций