속삭임 입력: Groq을 사용한 무료 고속 음성-텍스트 변환 서비스입니다.

최신 AI 리소스게시됨 6 개월 전 AI 공유 서클
2.1K 00

일반 소개

Whisper Input은 사용자가 옵션 버튼을 눌러 음성 녹음을 시작하고 버튼을 떼면 녹음을 종료할 수 있는 오픈 소스 음성 전사 도구입니다. 이 도구는 Groq 위스퍼 대형 V3 터보 모델은 음성 번역을 수행하고 1-2 초 안에 빠른 피드백을 제공하며, 위스퍼 입력은 다음과 같은 음성 번역도 지원합니다. 실리콘 플로우 더 빠른 인식과 더 높은 정확도를 제공하는 FunAudioLLM/센스보이스 소형 모델을 호스팅합니다. 시각 장애인을 포함하여 효율적인 음성 입력이 필요한 사용자에게 특히 적합합니다.

Whisper Input:利用Groq免费且高速的语音转录文本服务

 

기능 목록

  • 음성 녹음 및 번역옵션 버튼을 눌러 녹음을 시작하고, 버튼을 떼면 녹음이 종료되며, 번역을 위해 자동으로 모델을 호출합니다.
  • 다국어 지원여러 언어로 음성 녹음을 지원합니다.
  • 신속한 피드백대부분의 음성 입력은 1~2초 이내에 응답할 수 있습니다.
  • 무료 사용Groq 및 SiliconFlow에서 무료로 제공하는 무료 사용을 지원합니다.
  • 구두점 지원문장 부호가 자동으로 추가되어 번역된 텍스트의 가독성을 향상시킵니다.
  • 접근성 지원시각 장애 사용자를 위한 간단한 macOS 클라이언트를 개발 중입니다.

 

도움말 사용

설치 프로세스

  1. 사전 조건: 버전 3.10 이상의 로컬 Python 환경이 있는지 확인합니다.
  2. 복제 프로젝트::
   git clone https://github.com/ErlichLiu/Whisper-Input.git
  1. 가상 환경 만들기::
   python -m venv venv
  1. 가상 환경 활성화::
    • macOS/Linux. bash
      source venv/bin/activate
    • Windows. bash
      .\venv\Scripts\activate
  2. 종속성 설치::
   pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt

구성 모델

Groq Whisper 대형 V3 모델

  1. Groq 계정에 가입하기::Groq 등록 페이지
  2. API 키 받기::Groq API 키
  3. 환경 변수 구성::
   cp .env.example .env

API KEY를 .env 문서화:

   SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY

실리콘플로우 펀오디오LLM/센스보이스소형 모델

  1. 실리콘플로우 계정 등록::실리콘플로우 등록 페이지
  2. API 키 받기::실리콘플로우 API 키
  3. 환경 변수 구성::
   cp .env.example .env

API KEY를 .env 문서화:

   SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY

실행 중인 프로그램

  1. 트리거 절차::
   python main.py
  1. 사용법옵션 버튼을 눌러 음성 녹음을 시작하고 버튼을 떼어 녹음을 종료하면 프로그램이 자동으로 음성 번역을 수행하고 결과를 피드백합니다.

주의

  • 백그라운드 작업이 프로그램은 항상 백그라운드에서 실행해야 하므로 자주 닫지 않는 터미널이나 터미널 탭에서 실행하는 것이 좋습니다.
  • 접근성 지원향후 시각 장애가 있는 사용자를 위한 macOS 클라이언트가 제공될 예정입니다.

한 문장 설명(간략)

위스퍼 입력은 다국어 음성 입력을 지원하고 효율적인 음성 입력이 필요한 사용자를 위해 음성을 텍스트로 빠르고 정확하게 변환하는 효율적인 음성 변환 도구입니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...