위보: 자연어 대화 경험을 제공하는 실시간 음성 챗봇

61.3K 00

일반 소개

위보는 오픈 소스 실시간 음성 챗봇입니다. Whisper 음성 인식에는 Small, 자연어 생성에는 Llama 3.2, 음성 합성에는 Kokoro-82M이 사용됩니다. 아만비르 파르하르가 개발한 이 프로젝트는 네이티브 기기에서 실행되는 효율적인 음성 대화 솔루션을 제공하는 것을 목표로 하며, 다양한 음성을 지원하고 음성 상호작용이 필요한 다양한 애플리케이션 시나리오에 대한 실시간 응답을 원활하게 생성합니다.

기능 목록

실시간 음성 인식: Whisper Small 모델을 사용한 효율적인 음성-텍스트 처리.
자연어 생성: Llama 3.2 모델을 통해 자연어 응답을 생성합니다.
음성 합성: Kokoro-82M 모델을 사용하여 텍스트를 음성으로 변환합니다.
멀티 사운드 지원: 사용자 경험을 향상시키기 위해 다양한 사운드 옵션을 제공합니다.
로컬에서 실행: 클라우드 서비스에 의존할 필요 없이 모든 처리가 로컬 장치에서 이루어집니다.
오픈 소스 코드: 코드가 공개되어 있어 사용자가 자유롭게 기능을 수정하고 확장할 수 있습니다.

도움말 사용

설치 프로세스

필요한 모델을 다운로드하세요:
- 코코로-82M 모델 파일 다운로드 kokoro-v0_19.onnx 를 클릭하고 프로젝트 폴더에 넣습니다.
- 활용 Ollama 이 도구는 Llama 3.2 모델을 가져옵니다.
위보 프로젝트 코드를 복제합니다:

   git clone https://github.com/amanvirparhar/weebo.git
cd weebo

종속성을 설치합니다:

   pip install -r requirements.txt

챗봇을 실행합니다:

   python main.py

사용 지침

프로그램을 시작하면 Weebo가 음성 입력을 듣기 시작합니다.
사용자가 자연스럽게 말하면 위보가 잠시 멈춘 후 음성 응답을 생성합니다.
를 누릅니다. Ctrl+C 프로그램을 중지할 수 있습니다.

주요 기능

음성 인식위보 : 위스퍼 스몰 모델을 음성 인식에 사용하며 사용자의 음성을 텍스트로 정확하게 변환할 수 있습니다.
자연어 생성위보는 라마 3.2 모델을 사용하여 사용자의 음성 입력을 이해하고 자연어 응답을 생성합니다.
음성 합성위보는 Kokoro-82M 모델을 사용하여 생성된 텍스트 응답을 음성으로 변환하고 라우드 스피커를 통해 재생합니다.
다중 음성 지원프로필에서 다양한 사운드 모델을 선택하여 다양한 애플리케이션 요구 사항을 충족할 수 있습니다.

세부 단계

위보 시작: 실행 python main.py프로그램이 사용자의 음성 입력을 듣기 시작합니다.
음성 입력사용자가 마이크에 직접 말을 하면 위보가 자동으로 음성을 인식하고 처리합니다.
응답 생성하기위보는 음성을 인식한 후 라마 3.2 모델을 사용하여 자연어 응답을 생성하고, 이를 코코로-82M 모델을 사용하여 음성으로 변환합니다.
재생 응답: 생성된 음성 응답이 스피커를 통해 재생되고 사용자는 위보의 답변을 들을 수 있습니다.
중지 절차: 언론 Ctrl+C 위보는 언제든지 중지할 수 있습니다.

위 단계를 통해 사용자는 실시간 음성 대화를 위해 위보를 쉽게 사용할 수 있으며 자연스럽고 부드러운 음성 상호작용을 경험할 수 있습니다.