일반 소개
RealtimeSTT는 고급 음성 활동 감지 및 웨이크 워드 활성화 기능을 갖춘 효율적이고 지연 시간이 짧은 실시간 음성-텍스트 라이브러리입니다. 빠르고 정확한 음성-텍스트 변환이 필요한 애플리케이션을 지원하기 위해 콜야 베이겔이 개발했습니다. 음성 어시스턴트든 정확한 음성 전사가 필요한 애플리케이션이든 RealtimeSTT는 뛰어난 성능과 사용 편의성을 제공합니다.

기능 목록
- 실시간 음성 텍스트 변환: 다양한 애플리케이션 시나리오에 맞게 음성을 실시간으로 텍스트로 변환합니다.
- 음성 활동 감지: 사용자가 말을 시작하고 멈추는 시점을 자동으로 감지하여 전사 정확도를 향상시킵니다.
- 모닝콜 단어 활성화: 모닝콜 단어 기능을 지원하며, 사용자는 특정 단어로 시스템을 활성화할 수 있습니다.
- 짧은 지연 시간: 음성-텍스트 변환 프로세스에서 짧은 지연 시간을 보장하여 사용자 경험을 개선합니다.
- 멀티 플랫폼 지원: 여러 운영 체제 및 플랫폼과 호환되므로 쉽게 통합할 수 있습니다.
- 오픈 소스 코드: 개발자가 2차 개발 및 커스터마이징을 수행할 수 있도록 완전한 오픈 소스 코드를 제공합니다.
도움말 사용
설치 프로세스
- 프로젝트 웨어하우스 복제:
git clone https://github.com/KoljaB/RealtimeSTT.git
- 프로젝트 카탈로그로 이동합니다:
cd RealtimeSTT
- 종속성을 설치합니다:
pip install -r requirements.txt
- (선택 사항) GPU 지원을 설치합니다:
pip install -r requirements-gpu.txt
사용법
서버 시작
- 음성-텍스트 서버를 시작합니다:
stt-server
- 서버가 시작되면 "지금 말하세요"라는 메시지가 나타날 때까지 기다립니다.
클라이언트 사용
- 클라이언트를 시작하고 서버에 연결합니다:
stt
- 클라이언트가 실행되면 말을 시작하면 시스템이 음성을 실시간으로 텍스트로 변환합니다.
주요 기능
실시간 음성-텍스트 변환
- 가져오기(데이터)
AudioToTextRecorder
클래스:
from RealtimeSTT import AudioToTextRecorder
- 텍스트를 처리하는 함수를 정의합니다:
def process_text(text):
print(text)
- 녹음을 시작하고 텍스트를 처리합니다:
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
음성 활동 감지
- 시스템은 추가 설정 없이도 사용자가 말을 시작하고 멈추는 시점을 자동으로 감지합니다.
모닝콜 활성화
- 깨우기 단어 기능을 구성하면 사용자가 특정 단어로 시스템을 활성화할 수 있으며, 구체적인 구성은 프로젝트 설명서를 참조하세요.
자세한 작동 예
모든 내용을 입력합니다.
- 가져오기(데이터)
AudioToTextRecorder
노래로 응답pyautogui
::
from RealtimeSTT import AudioToTextRecorder
import pyautogui
- 텍스트를 처리하는 함수를 정의합니다:
def process_text(text):
pyautogui.typewrite(text + " ")
- 녹음을 시작하고 텍스트를 처리합니다:
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...