RealtimeSTT: Whisper 기반의 저지연 스트리밍 음성 인식을 위한 실시간 음성-텍스트 변환 도구

89.8K 00

일반 소개

RealtimeSTT는 고급 음성 활동 감지 및 웨이크 워드 활성화 기능을 갖춘 효율적이고 지연 시간이 짧은 실시간 음성-텍스트 라이브러리입니다. 빠르고 정확한 음성-텍스트 변환이 필요한 애플리케이션을 지원하기 위해 콜야 베이겔이 개발했습니다. 음성 어시스턴트든 정확한 음성 전사가 필요한 애플리케이션이든 RealtimeSTT는 뛰어난 성능과 사용 편의성을 제공합니다.

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

기능 목록

실시간 음성 텍스트 변환: 다양한 애플리케이션 시나리오에 맞게 음성을 실시간으로 텍스트로 변환합니다.
음성 활동 감지: 사용자가 말을 시작하고 멈추는 시점을 자동으로 감지하여 전사 정확도를 향상시킵니다.
모닝콜 단어 활성화: 모닝콜 단어 기능을 지원하며, 사용자는 특정 단어로 시스템을 활성화할 수 있습니다.
짧은 지연 시간: 음성-텍스트 변환 프로세스에서 짧은 지연 시간을 보장하여 사용자 경험을 개선합니다.
멀티 플랫폼 지원: 여러 운영 체제 및 플랫폼과 호환되므로 쉽게 통합할 수 있습니다.
오픈 소스 코드: 개발자가 2차 개발 및 커스터마이징을 수행할 수 있도록 완전한 오픈 소스 코드를 제공합니다.

도움말 사용

설치 프로세스

프로젝트 웨어하우스 복제:

   git clone https://github.com/KoljaB/RealtimeSTT.git

프로젝트 카탈로그로 이동합니다:

   cd RealtimeSTT

종속성을 설치합니다:

   pip install -r requirements.txt

(선택 사항) GPU 지원을 설치합니다:

   pip install -r requirements-gpu.txt

사용법

서버 시작

음성-텍스트 서버를 시작합니다:

   stt-server

서버가 시작되면 "지금 말하세요"라는 메시지가 나타날 때까지 기다립니다.

클라이언트 사용

클라이언트를 시작하고 서버에 연결합니다:

stt

클라이언트가 실행되면 말을 시작하면 시스템이 음성을 실시간으로 텍스트로 변환합니다.

주요 기능

실시간 음성-텍스트 변환

가져오기(데이터) AudioToTextRecorder 클래스:

   from RealtimeSTT import AudioToTextRecorder

텍스트를 처리하는 함수를 정의합니다:

   def process_text(text):
print(text)

녹음을 시작하고 텍스트를 처리합니다:

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

음성 활동 감지

시스템은 추가 설정 없이도 사용자가 말을 시작하고 멈추는 시점을 자동으로 감지합니다.

모닝콜 활성화

깨우기 단어 기능을 구성하면 사용자가 특정 단어로 시스템을 활성화할 수 있으며, 구체적인 구성은 프로젝트 설명서를 참조하세요.

자세한 작동 예

모든 내용을 입력합니다.

가져오기(데이터) AudioToTextRecorder 노래로 응답 pyautogui::

   from RealtimeSTT import AudioToTextRecorder
import pyautogui

텍스트를 처리하는 함수를 정의합니다:

   def process_text(text):
pyautogui.typewrite(text + " ")

녹음을 시작하고 텍스트를 처리합니다:

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

AI 뉴스 # AI 자바 오픈 소스 프로젝트 # AI 음성-텍스트 변환

새로운 '초안 모드'로 미드저니 V7 알파 테스트 시작

AI 뉴스

1 년 전

051K

AI 검색 엔진 Perplexity가 새로운 브라우저인 Comet을 곧 출시합니다.

AI 뉴스

1 년 전

044.1K

대규모 모델 배포와 전문가용 워크플로우의 재창조: Apple의 Mac Studio 성능 괴물 출시

AI 뉴스

1 년 전

057.5K

Refly AI 글쓰기 도구는 공식 오픈 소스로, 창작 과정을 캔버스에 요약해줍니다.

AI 뉴스

1 년 전

047.7K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

RealtimeSTT: Whisper 기반의 저지연 스트리밍 음성 인식을 위한 실시간 음성-텍스트 변환 도구

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용법

서버 시작

클라이언트 사용

주요 기능

실시간 음성-텍스트 변환

음성 활동 감지

모닝콜 활성화

자세한 작동 예

모든 내용을 입력합니다.

Claude CEO의 최신 10,000단어 글은 샘 알트만보다 더 합리적이고 실용적입니다!

Microsoft CEO의 대담한 예측, "AI 에이전트가 모든 SaaS를 대체할 것"

관련 문서

새로운 '초안 모드'로 미드저니 V7 알파 테스트 시작

AI 검색 엔진 Perplexity가 새로운 브라우저인 Comet을 곧 출시합니다.

대규모 모델 배포와 전문가용 워크플로우의 재창조: Apple의 Mac Studio 성능 괴물 출시

Refly AI 글쓰기 도구는 공식 오픈 소스로, 창작 과정을 캔버스에 요약해줍니다.

댓글 없음

최신 컬렉션

최신 기사

RealtimeSTT: Whisper 기반의 저지연 스트리밍 음성 인식을 위한 실시간 음성-텍스트 변환 도구

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용법

서버 시작

클라이언트 사용

주요 기능

실시간 음성-텍스트 변환

음성 활동 감지

모닝콜 활성화

자세한 작동 예

모든 내용을 입력합니다.

Claude CEO의 최신 10,000단어 글은 샘 알트만보다 더 합리적이고 실용적입니다!

Microsoft CEO의 대담한 예측, "AI 에이전트가 모든 SaaS를 대체할 것"

관련 문서

새로운 '초안 모드'로 미드저니 V7 알파 테스트 시작

AI 검색 엔진 Perplexity가 새로운 브라우저인 Comet을 곧 출시합니다.

대규모 모델 배포와 전문가용 워크플로우의 재창조: Apple의 Mac Studio 성능 괴물 출시

Refly AI 글쓰기 도구는 공식 오픈 소스로, 창작 과정을 캔버스에 요약해줍니다.

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사