RealtimeSTT: Whisper 기반의 저지연 스트리밍 음성 인식을 위한 실시간 음성-텍스트 변환 도구

AI 뉴스7개월 전 업데이트 AI 공유 서클
2.9K 00

일반 소개

RealtimeSTT는 고급 음성 활동 감지 및 웨이크 워드 활성화 기능을 갖춘 효율적이고 지연 시간이 짧은 실시간 음성-텍스트 라이브러리입니다. 빠르고 정확한 음성-텍스트 변환이 필요한 애플리케이션을 지원하기 위해 콜야 베이겔이 개발했습니다. 음성 어시스턴트든 정확한 음성 전사가 필요한 애플리케이션이든 RealtimeSTT는 뛰어난 성능과 사용 편의성을 제공합니다.

RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

 

기능 목록

  • 실시간 음성 텍스트 변환: 다양한 애플리케이션 시나리오에 맞게 음성을 실시간으로 텍스트로 변환합니다.
  • 음성 활동 감지: 사용자가 말을 시작하고 멈추는 시점을 자동으로 감지하여 전사 정확도를 향상시킵니다.
  • 모닝콜 단어 활성화: 모닝콜 단어 기능을 지원하며, 사용자는 특정 단어로 시스템을 활성화할 수 있습니다.
  • 짧은 지연 시간: 음성-텍스트 변환 프로세스에서 짧은 지연 시간을 보장하여 사용자 경험을 개선합니다.
  • 멀티 플랫폼 지원: 여러 운영 체제 및 플랫폼과 호환되므로 쉽게 통합할 수 있습니다.
  • 오픈 소스 코드: 개발자가 2차 개발 및 커스터마이징을 수행할 수 있도록 완전한 오픈 소스 코드를 제공합니다.

 

도움말 사용

설치 프로세스

  1. 프로젝트 웨어하우스 복제:
   git clone https://github.com/KoljaB/RealtimeSTT.git
  1. 프로젝트 카탈로그로 이동합니다:
   cd RealtimeSTT
  1. 종속성을 설치합니다:
   pip install -r requirements.txt
  1. (선택 사항) GPU 지원을 설치합니다:
   pip install -r requirements-gpu.txt

사용법

서버 시작

  1. 음성-텍스트 서버를 시작합니다:
   stt-server
  1. 서버가 시작되면 "지금 말하세요"라는 메시지가 나타날 때까지 기다립니다.

클라이언트 사용

  1. 클라이언트를 시작하고 서버에 연결합니다:
   stt
  1. 클라이언트가 실행되면 말을 시작하면 시스템이 음성을 실시간으로 텍스트로 변환합니다.

주요 기능

실시간 음성-텍스트 변환

  1. 가져오기(데이터) AudioToTextRecorder 클래스:
   from RealtimeSTT import AudioToTextRecorder
  1. 텍스트를 처리하는 함수를 정의합니다:
   def process_text(text):
print(text)
  1. 녹음을 시작하고 텍스트를 처리합니다:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

음성 활동 감지

  1. 시스템은 추가 설정 없이도 사용자가 말을 시작하고 멈추는 시점을 자동으로 감지합니다.

모닝콜 활성화

  1. 깨우기 단어 기능을 구성하면 사용자가 특정 단어로 시스템을 활성화할 수 있으며, 구체적인 구성은 프로젝트 설명서를 참조하세요.

자세한 작동 예

모든 내용을 입력합니다.

  1. 가져오기(데이터) AudioToTextRecorder 노래로 응답 pyautogui::
   from RealtimeSTT import AudioToTextRecorder
import pyautogui
  1. 텍스트를 처리하는 함수를 정의합니다:
   def process_text(text):
pyautogui.typewrite(text + " ")
  1. 녹음을 시작하고 텍스트를 처리합니다:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...