일반 소개
위보는 오픈 소스 실시간 음성 챗봇입니다. Whisper 음성 인식에는 Small, 자연어 생성에는 Llama 3.2, 음성 합성에는 Kokoro-82M이 사용됩니다. 아만비르 파르하르가 개발한 이 프로젝트는 네이티브 기기에서 실행되는 효율적인 음성 대화 솔루션을 제공하는 것을 목표로 하며, 다양한 음성을 지원하고 음성 상호작용이 필요한 다양한 애플리케이션 시나리오에 대한 실시간 응답을 원활하게 생성합니다.
기능 목록
- 실시간 음성 인식: Whisper Small 모델을 사용한 효율적인 음성-텍스트 처리.
- 자연어 생성: Llama 3.2 모델을 통해 자연어 응답을 생성합니다.
- 음성 합성: Kokoro-82M 모델을 사용하여 텍스트를 음성으로 변환합니다.
- 멀티 사운드 지원: 사용자 경험을 향상시키기 위해 다양한 사운드 옵션을 제공합니다.
- 로컬에서 실행: 클라우드 서비스에 의존할 필요 없이 모든 처리가 로컬 장치에서 이루어집니다.
- 오픈 소스 코드: 코드가 공개되어 있어 사용자가 자유롭게 기능을 수정하고 확장할 수 있습니다.
도움말 사용
설치 프로세스
- 필요한 모델을 다운로드하세요:
- 코코로-82M 모델 파일 다운로드
kokoro-v0_19.onnx
를 클릭하고 프로젝트 폴더에 넣습니다. - 활용 Ollama 이 도구는 Llama 3.2 모델을 가져옵니다.
- 코코로-82M 모델 파일 다운로드
- 위보 프로젝트 코드를 복제합니다:
git clone https://github.com/amanvirparhar/weebo.git
cd weebo
- 종속성을 설치합니다:
pip install -r requirements.txt
- 챗봇을 실행합니다:
python main.py
사용 지침
- 프로그램을 시작하면 Weebo가 음성 입력을 듣기 시작합니다.
- 사용자가 자연스럽게 말하면 위보가 잠시 멈춘 후 음성 응답을 생성합니다.
- 를 누릅니다.
Ctrl+C
프로그램을 중지할 수 있습니다.
주요 기능
- 음성 인식위보 : 위스퍼 스몰 모델을 음성 인식에 사용하며 사용자의 음성을 텍스트로 정확하게 변환할 수 있습니다.
- 자연어 생성위보는 라마 3.2 모델을 사용하여 사용자의 음성 입력을 이해하고 자연어 응답을 생성합니다.
- 음성 합성위보는 Kokoro-82M 모델을 사용하여 생성된 텍스트 응답을 음성으로 변환하고 라우드 스피커를 통해 재생합니다.
- 다중 음성 지원프로필에서 다양한 사운드 모델을 선택하여 다양한 애플리케이션 요구 사항을 충족할 수 있습니다.
세부 단계
- 위보 시작: 실행
python main.py
프로그램이 사용자의 음성 입력을 듣기 시작합니다. - 음성 입력사용자가 마이크에 직접 말을 하면 위보가 자동으로 음성을 인식하고 처리합니다.
- 응답 생성하기위보는 음성을 인식한 후 라마 3.2 모델을 사용하여 자연어 응답을 생성하고, 이를 코코로-82M 모델을 사용하여 음성으로 변환합니다.
- 재생 응답: 생성된 음성 응답이 스피커를 통해 재생되고 사용자는 위보의 답변을 들을 수 있습니다.
- 중지 절차: 언론
Ctrl+C
위보는 언제든지 중지할 수 있습니다.
위 단계를 통해 사용자는 실시간 음성 대화를 위해 위보를 쉽게 사용할 수 있으며 자연스럽고 부드러운 음성 상호작용을 경험할 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...