RealtimeSTT: инструмент преобразования речи в текст в реальном времени для потокового распознавания речи с низкой задержкой на основе Whisper

Новости ИИОбновлено 7 месяцев назад Круг обмена ИИ
9.4K 00

Общее введение

RealtimeSTT - это эффективная библиотека преобразования речи в текст в реальном времени с низкой задержкой и расширенными функциями обнаружения речевой активности и активации слов при пробуждении. Она была разработана Колей Бейгелем для поддержки приложений, требующих быстрой и точной транскрипции речи в текст. Будь то голосовой помощник или приложение, требующее точной транскрипции речи, RealtimeSTT обеспечивает отличную производительность и простоту использования.

RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

 

Список функций

  • Перевод речи в текст в реальном времени: транскрибируйте речь в текст в реальном времени для различных сценариев применения.
  • Определение речевой активности: автоматическое определение того, когда пользователь начинает и прекращает говорить, что повышает точность транскрипции.
  • Активация по слову: поддержка функции слова пробуждения, пользователи могут активировать систему по определенным словам.
  • Низкая задержка: Обеспечьте низкую задержку в процессе преобразования речи в текст, чтобы повысить удобство использования.
  • Поддержка нескольких платформ: совместимость с несколькими операционными системами и платформами для легкой интеграции.
  • Открытый исходный код: Предоставление полного открытого исходного кода для разработчиков, чтобы они могли осуществлять вторичную разработку и кастомизацию.

 

Использование помощи

Процесс установки

  1. Хранилище проектов клонирования:
   git clone https://github.com/KoljaB/RealtimeSTT.git
  1. Перейдите в каталог проектов:
   cd RealtimeSTT
  1. Установите зависимость:
   pip install -r requirements.txt
  1. (Необязательно) Установите поддержку GPU:
   pip install -r requirements-gpu.txt

Использование

Запустите сервер

  1. Запустите сервер преобразования речи в текст:
   stt-server
  1. После запуска сервера дождитесь подсказки "speak now".

Использование клиентами

  1. Запустите клиент и подключитесь к серверу:
   stt
  1. Запустив клиент, начните говорить, и система в режиме реального времени будет транскрибировать речь в текст.

Основные функции

преобразование речи в текст в режиме реального времени

  1. импорт (данные) AudioToTextRecorder Класс:
   from RealtimeSTT import AudioToTextRecorder
  1. Определяет функции, обрабатывающие текст:
   def process_text(text):
print(text)
  1. Запускает запись и обрабатывает текст:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Обнаружение голосовой активности

  1. Система автоматически определяет, когда пользователь начинает и прекращает говорить, и не требует дополнительной настройки.

активация будильника

  1. Настройте функцию слова пробуждения, пользователи могут активировать систему с помощью определенных слов, пожалуйста, обратитесь к проектной документации для конкретной конфигурации.

Подробный пример работы

Печатайте все, что говорится

  1. импорт (данные) AudioToTextRecorder ответить пением pyautogui::
   from RealtimeSTT import AudioToTextRecorder
import pyautogui
  1. Определяет функции, обрабатывающие текст:
   def process_text(text):
pyautogui.typewrite(text + " ")
  1. Запускает запись и обрабатывает текст:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...