RealtimeSTT: инструмент преобразования речи в текст в реальном времени для потокового распознавания речи с низкой задержкой на основе Whisper
Общее введение
RealtimeSTT - это эффективная библиотека преобразования речи в текст в реальном времени с низкой задержкой и расширенными функциями обнаружения речевой активности и активации слов при пробуждении. Она была разработана Колей Бейгелем для поддержки приложений, требующих быстрой и точной транскрипции речи в текст. Будь то голосовой помощник или приложение, требующее точной транскрипции речи, RealtimeSTT обеспечивает отличную производительность и простоту использования.

Список функций
- Перевод речи в текст в реальном времени: транскрибируйте речь в текст в реальном времени для различных сценариев применения.
- Определение речевой активности: автоматическое определение того, когда пользователь начинает и прекращает говорить, что повышает точность транскрипции.
- Активация по слову: поддержка функции слова пробуждения, пользователи могут активировать систему по определенным словам.
- Низкая задержка: Обеспечьте низкую задержку в процессе преобразования речи в текст, чтобы повысить удобство использования.
- Поддержка нескольких платформ: совместимость с несколькими операционными системами и платформами для легкой интеграции.
- Открытый исходный код: Предоставление полного открытого исходного кода для разработчиков, чтобы они могли осуществлять вторичную разработку и кастомизацию.
Использование помощи
Процесс установки
- Хранилище проектов клонирования:
git clone https://github.com/KoljaB/RealtimeSTT.git
- Перейдите в каталог проектов:
cd RealtimeSTT
- Установите зависимость:
pip install -r requirements.txt
- (Необязательно) Установите поддержку GPU:
pip install -r requirements-gpu.txt
Использование
Запустите сервер
- Запустите сервер преобразования речи в текст:
stt-server
- После запуска сервера дождитесь подсказки "speak now".
Использование клиентами
- Запустите клиент и подключитесь к серверу:
stt
- Запустив клиент, начните говорить, и система в режиме реального времени будет транскрибировать речь в текст.
Основные функции
преобразование речи в текст в режиме реального времени
- импорт (данные)
AudioToTextRecorder
Класс:
from RealtimeSTT import AudioToTextRecorder
- Определяет функции, обрабатывающие текст:
def process_text(text):
print(text)
- Запускает запись и обрабатывает текст:
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
Обнаружение голосовой активности
- Система автоматически определяет, когда пользователь начинает и прекращает говорить, и не требует дополнительной настройки.
активация будильника
- Настройте функцию слова пробуждения, пользователи могут активировать систему с помощью определенных слов, пожалуйста, обратитесь к проектной документации для конкретной конфигурации.
Подробный пример работы
Печатайте все, что говорится
- импорт (данные)
AudioToTextRecorder
ответить пениемpyautogui
::
from RealtimeSTT import AudioToTextRecorder
import pyautogui
- Определяет функции, обрабатывающие текст:
def process_text(text):
pyautogui.typewrite(text + " ")
- Запускает запись и обрабатывает текст:
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...