CrisperWhisper: инструмент для точной стенографической расшифровки речи

Общее введение

CrisperWhisper - это усовершенствованный инструмент распознавания речи на основе OpenAI Whisper, который ориентирован на быструю, точную и пословную транскрипцию речи. CrisperWhisper повышает точность временных меток на уровне слов даже при наличии речевых заполнений и пауз. CrisperWhisper улучшает точность временных меток за счет настройки теггера и потери внимания, а также уменьшает иллюзии транскрипции, чтобы гарантировать, что каждое произнесенное слово будет точно записано.

 

Резюме

CrisperWhisper - это улучшенная версия модели распознавания речи Whisper, которая, благодаря настройке токенизатора и использованию алгоритма динамического искажения времени (DTW), обеспечивает более точную временную метку на уровне слов, более детальную транскрипцию речи, улучшает обнаружение пауз и заполнений слов в речи, а также уменьшает количество галлюцинаций. Кроме того, уменьшается вероятность возникновения галлюцинаций.

рефераты

CrisperWhisper - это усовершенствование, основанное на модели Whisper и предназначенное для более точного определения временных меток на уровне слов и более детальной транскрипции речи. Модель повышает точность временной метки, настраивая токенизатор Whisper таким образом, чтобы алгоритм DTW мог более точно согласовывать аудиоклипы со словами. Эта техника особенно полезна для захвата транскрипции речи во всех произношениях, что важно для клинической оценки речи, анализа процесса языкового планирования и выявления показателей когнитивной нагрузки.CrisperWhisper также улучшает внимание и адаптацию к монофоническим источникам звука путем обучения и противодействия шуму, и был протестирован на ряде эталонных наборов данных, демонстрирующих его использование в распознавании речи, сегментации, обнаружении событий-заполнителей и уменьшении иллюзорного содержания. Кроме того, стали доступны код модели и синтетический набор данных с точными временными метками на уровне слов.

Точки зрения

  • Улучшенный токенизаторCrisperWhisper повышает точность временных меток, удаляя лишние пробелы в токенайзере и заново маркируя определенные слова, такие как "uh" и "um", чтобы алгоритм DTW мог более точно согласовывать аудиоклипы со словами.
  • Антишумовая технология: Модель улучшает адаптацию к шуму за счет включения в процесс обучения данных из шумных и полифонических источников, а также уменьшает генерацию иллюзорного контента за счет введения пустых обучающих образцов.
  • Превосходная производительностьCrisperWhisper был протестирован на ряде эталонных наборов данных, включая AMI Meeting Corpus, TED-LIUM и LibriSpeech, и продемонстрировал отличную производительность распознавания речи и временных меток на уровне слов в этих наборах.
  • Открытый исходный код и наборы данныхКод модели и набор данных синтетической речи были выложены в открытый доступ, что поможет исследователям и разработчикам в дальнейшем изучать и совершенствовать методы распознавания речи.
  • Сокращение виртуального контентаCrisperWhisper эффективно снижает генерацию иллюзорного содержимого за счет точного определения времени и специальной обработки иллюзорного содержимого, что особенно важно для повышения надежности систем распознавания речи.

 

 

Список функций

  • Точные временные метки на уровне слов: Обеспечивает точные временные метки даже при заполнении речи и паузах.
  • дословная транскрипция: Запишите каждое произнесенное слово дословно, включая слова-заполнители, такие как "эм" и "ах".
  • определение слов-заполнителей: Выявление и точная транскрипция слов-заполнителей.
  • Уменьшение галлюцинаций: Уменьшение транскрипционных галлюцинаций и повышение точности.
  • открытый исходный код: Код находится в открытом доступе для удобства просмотра и использования.

 

 

Использование помощи

Процесс установки

  1. Подготовка к защите окружающей среды::
    • Убедитесь, что у вас установлен Python 3.7 и выше.
    • Установите необходимые библиотеки зависимостей:pip install -r requirements.txt.
  2. Код загрузки::
    • Клонируйте репозиторий GitHub:git clone https://github.com/nyrahealth/CrisperWhisper.git.
  3. Запуск приложения::
    • Перейдите в каталог проектов:cd CrisperWhisper.
    • Запустите приложение:python app.py.

Руководство по использованию

  1. Основное использование::
    • Открыв приложение, загрузите аудиофайл для расшифровки.
    • Выберите режим транскрипции (дословная или стандартная транскрипция).
    • Нажмите кнопку "Начать транскрипцию" и дождитесь завершения транскрипции.
  2. Дополнительные возможности::
    • Настройка временных меток: Точность временной метки можно настроить в настройках.
    • определение слов-заполнителей: Включает или выключает обнаружение слов-заполнителей.
    • Экспорт результатов: После завершения транскрипции результаты можно экспортировать в текстовый файл или другой формат.
  3. общие проблемы::
    • неточная транскрипция: Обеспечьте хорошее качество звука и избегайте фоновых шумов.
    • Неточные временные метки: Попробуйте изменить настройки временной метки или использовать аудиофайл более высокого качества.

типичный пример

  1. Пример дословной транскрипции::
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    时间戳:[0:00:01] 嗯,[0:00:02] 我,[0:00:03] 觉得,[0:00:04] 这个,[0:00:05] 项目,[0:00:06] 非常,[0:00:07] 有趣。
    
  2. Пример определения слов-заполнителей::
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    填充词:[0:00:01] 嗯
    
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...