RealtimeSTT: инструмент преобразования речи в текст в реальном времени для потокового распознавания речи с низкой задержкой на основе Whisper

Новости ИИОбновлено 1 год назад Круг обмена ИИ

81.2K 00

Общее введение

RealtimeSTT - это эффективная библиотека преобразования речи в текст в реальном времени с низкой задержкой и расширенными функциями обнаружения речевой активности и активации слов при пробуждении. Она была разработана Колей Бейгелем для поддержки приложений, требующих быстрой и точной транскрипции речи в текст. Будь то голосовой помощник или приложение, требующее точной транскрипции речи, RealtimeSTT обеспечивает отличную производительность и простоту использования.

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

Список функций

Перевод речи в текст в реальном времени: транскрибируйте речь в текст в реальном времени для различных сценариев применения.
Определение речевой активности: автоматическое определение того, когда пользователь начинает и прекращает говорить, что повышает точность транскрипции.
Активация по слову: поддержка функции слова пробуждения, пользователи могут активировать систему по определенным словам.
Низкая задержка: Обеспечьте низкую задержку в процессе преобразования речи в текст, чтобы повысить удобство использования.
Поддержка нескольких платформ: совместимость с несколькими операционными системами и платформами для легкой интеграции.
Открытый исходный код: Предоставление полного открытого исходного кода для разработчиков, чтобы они могли осуществлять вторичную разработку и кастомизацию.

Использование помощи

Процесс установки

Хранилище проектов клонирования:

   git clone https://github.com/KoljaB/RealtimeSTT.git

Перейдите в каталог проектов:

   cd RealtimeSTT

Установите зависимость:

   pip install -r requirements.txt

(Необязательно) Установите поддержку GPU:

   pip install -r requirements-gpu.txt

Использование

Запустите сервер

Запустите сервер преобразования речи в текст:

   stt-server

После запуска сервера дождитесь подсказки "speak now".

Использование клиентами

Запустите клиент и подключитесь к серверу:

stt

Запустив клиент, начните говорить, и система в режиме реального времени будет транскрибировать речь в текст.

Основные функции

преобразование речи в текст в режиме реального времени

импорт (данные) AudioToTextRecorder Класс:

   from RealtimeSTT import AudioToTextRecorder

Определяет функции, обрабатывающие текст:

   def process_text(text):
print(text)

Запускает запись и обрабатывает текст:

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Обнаружение голосовой активности

Система автоматически определяет, когда пользователь начинает и прекращает говорить, и не требует дополнительной настройки.

активация будильника

Настройте функцию слова пробуждения, пользователи могут активировать систему с помощью определенных слов, пожалуйста, обратитесь к проектной документации для конкретной конфигурации.

Подробный пример работы

Печатайте все, что говорится

импорт (данные) AudioToTextRecorder ответить пением pyautogui::

   from RealtimeSTT import AudioToTextRecorder
import pyautogui

Определяет функции, обрабатывающие текст:

   def process_text(text):
pyautogui.typewrite(text + " ")

Запускает запись и обрабатывает текст:

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

GraphAgent: построение графиков знаний для автоматизации планирования и выполнения задач

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct График знаний #

1 год назад

047.1K

MIDI-3D: инструмент с открытым исходным кодом для быстрой генерации многообъектных 3D-сцен из одного изображения

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Текст и изображение в 3D

12 месяцев назад

056.2K

Kokoro-ONNX: эффективный инструмент преобразования текста в речь с поддержкой нескольких языков и нескольких голосов

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI преобразование текста в речь

1 год назад

097.8K

Knowledge Graph Studio（WhyHow）：创建和管理知识图谱的开源平台，RAG应用原生支持

Knowledge Graph Studio (WhyHow): платформа с открытым исходным кодом для создания и управления графами знаний, со встроенной поддержкой RAG-приложений.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct График знаний #

1 год назад

072.8K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

RealtimeSTT: инструмент преобразования речи в текст в реальном времени для потокового распознавания речи с низкой задержкой на основе Whisper

Общее введение

Список функций

Использование помощи

Процесс установки

Использование

Запустите сервер

Использование клиентами

Основные функции

преобразование речи в текст в режиме реального времени

Обнаружение голосовой активности

активация будильника

Подробный пример работы

Печатайте все, что говорится

Последняя статья генерального директора Claude из 10 000 слов более рациональна и практична, чем Сэм Альтман!

Смелое предсказание генерального директора Microsoft: "ИИ-агент заменит все SaaS"

Похожие статьи

GraphAgent: построение графиков знаний для автоматизации планирования и выполнения задач

MIDI-3D: инструмент с открытым исходным кодом для быстрой генерации многообъектных 3D-сцен из одного изображения

Kokoro-ONNX: эффективный инструмент преобразования текста в речь с поддержкой нескольких языков и нескольких голосов

Knowledge Graph Studio (WhyHow): платформа с открытым исходным кодом для создания и управления графами знаний, со встроенной поддержкой RAG-приложений.

Нет комментариев

Последние коллекции

Последние статьи

RealtimeSTT: инструмент преобразования речи в текст в реальном времени для потокового распознавания речи с низкой задержкой на основе Whisper

Общее введение

Список функций

Использование помощи

Процесс установки

Использование

Запустите сервер

Использование клиентами

Основные функции

преобразование речи в текст в режиме реального времени

Обнаружение голосовой активности

активация будильника

Подробный пример работы

Печатайте все, что говорится

Последняя статья генерального директора Claude из 10 000 слов более рациональна и практична, чем Сэм Альтман!

Смелое предсказание генерального директора Microsoft: "ИИ-агент заменит все SaaS"

Похожие статьи

GraphAgent: построение графиков знаний для автоматизации планирования и выполнения задач

MIDI-3D: инструмент с открытым исходным кодом для быстрой генерации многообъектных 3D-сцен из одного изображения

Kokoro-ONNX: эффективный инструмент преобразования текста в речь с поддержкой нескольких языков и нескольких голосов

Knowledge Graph Studio (WhyHow): платформа с открытым исходным кодом для создания и управления графами знаний, со встроенной поддержкой RAG-приложений.

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи