위보: 자연어 대화 경험을 제공하는 실시간 음성 챗봇

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
2.5K 00

일반 소개

위보는 오픈 소스 실시간 음성 챗봇입니다. Whisper 음성 인식에는 Small, 자연어 생성에는 Llama 3.2, 음성 합성에는 Kokoro-82M이 사용됩니다. 아만비르 파르하르가 개발한 이 프로젝트는 네이티브 기기에서 실행되는 효율적인 음성 대화 솔루션을 제공하는 것을 목표로 하며, 다양한 음성을 지원하고 음성 상호작용이 필요한 다양한 애플리케이션 시나리오에 대한 실시간 응답을 원활하게 생성합니다.

 

기능 목록

  • 실시간 음성 인식: Whisper Small 모델을 사용한 효율적인 음성-텍스트 처리.
  • 자연어 생성: Llama 3.2 모델을 통해 자연어 응답을 생성합니다.
  • 음성 합성: Kokoro-82M 모델을 사용하여 텍스트를 음성으로 변환합니다.
  • 멀티 사운드 지원: 사용자 경험을 향상시키기 위해 다양한 사운드 옵션을 제공합니다.
  • 로컬에서 실행: 클라우드 서비스에 의존할 필요 없이 모든 처리가 로컬 장치에서 이루어집니다.
  • 오픈 소스 코드: 코드가 공개되어 있어 사용자가 자유롭게 기능을 수정하고 확장할 수 있습니다.

 

도움말 사용

설치 프로세스

  1. 필요한 모델을 다운로드하세요:
    • 코코로-82M 모델 파일 다운로드 kokoro-v0_19.onnx 를 클릭하고 프로젝트 폴더에 넣습니다.
    • 활용 Ollama 이 도구는 Llama 3.2 모델을 가져옵니다.
  2. 위보 프로젝트 코드를 복제합니다:
   git clone https://github.com/amanvirparhar/weebo.git
cd weebo
  1. 종속성을 설치합니다:
   pip install -r requirements.txt
  1. 챗봇을 실행합니다:
   python main.py

사용 지침

  1. 프로그램을 시작하면 Weebo가 음성 입력을 듣기 시작합니다.
  2. 사용자가 자연스럽게 말하면 위보가 잠시 멈춘 후 음성 응답을 생성합니다.
  3. 를 누릅니다. Ctrl+C 프로그램을 중지할 수 있습니다.

주요 기능

  • 음성 인식위보 : 위스퍼 스몰 모델을 음성 인식에 사용하며 사용자의 음성을 텍스트로 정확하게 변환할 수 있습니다.
  • 자연어 생성위보는 라마 3.2 모델을 사용하여 사용자의 음성 입력을 이해하고 자연어 응답을 생성합니다.
  • 음성 합성위보는 Kokoro-82M 모델을 사용하여 생성된 텍스트 응답을 음성으로 변환하고 라우드 스피커를 통해 재생합니다.
  • 다중 음성 지원프로필에서 다양한 사운드 모델을 선택하여 다양한 애플리케이션 요구 사항을 충족할 수 있습니다.

세부 단계

  1. 위보 시작: 실행 python main.py프로그램이 사용자의 음성 입력을 듣기 시작합니다.
  2. 음성 입력사용자가 마이크에 직접 말을 하면 위보가 자동으로 음성을 인식하고 처리합니다.
  3. 응답 생성하기위보는 음성을 인식한 후 라마 3.2 모델을 사용하여 자연어 응답을 생성하고, 이를 코코로-82M 모델을 사용하여 음성으로 변환합니다.
  4. 재생 응답: 생성된 음성 응답이 스피커를 통해 재생되고 사용자는 위보의 답변을 들을 수 있습니다.
  5. 중지 절차: 언론 Ctrl+C 위보는 언제든지 중지할 수 있습니다.

위 단계를 통해 사용자는 실시간 음성 대화를 위해 위보를 쉽게 사용할 수 있으며 자연스럽고 부드러운 음성 상호작용을 경험할 수 있습니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...