Ichigo(llama3-s): 로컬 실시간 음성 AI 비서, Siri의 오픈 소스 버전

56.7K 00

일반 소개

Ichigo는 텍스트 기반 언어 모델을 네이티브 '듣기' 기능으로 확장하는 것을 목표로 하는 오픈 소스 실시간 음성 AI 프로젝트입니다. 이 프로젝트는 Meta의 카멜레온 논문에서 영감을 얻은 초기 융합 기술을 사용하며, Siri와 유사한 네이티브 디바이스를 위한 오픈 소스 데이터, 오픈 소스 가중치 음성 비서를 목표로 하고 있습니다. 이 프로젝트는 공개적으로 진행 중이며 파트너는 음성 데이터 세트의 발전을 위한 크라우드소싱 노력에 참여할 수 있습니다.

기능 목록

실시간 음성 인식사용자의 음성 입력을 실시간으로 처리하고 이해하는 능력.
다자간 대화 용량여러 차례의 대화 지원, 대화에서 컨텍스트를 유지하는 기능.
소음 관리훈련을 통해 비음성 오디오 입력을 처리하지 않도록 거부하는 기능은 사용자 경험을 향상시킵니다.
오픈 소스 및 확장성프로젝트 코드와 모델 가중치는 완전히 오픈 소스이며 사용자가 자유롭게 다운로드하여 확장할 수 있습니다.
로컬 배포사용자 개인 정보 보호를 위해 로컬 디바이스에 배포를 지원합니다.

도움말 사용

설치 프로세스

환경 준비 ::
- Python 3.8 이상이 설치되어 있는지 확인합니다.
- 필요한 종속성 라이브러리를 설치합니다:pip install -r requirements.txt.
모델 다운로드 ::
- 다음 명령을 사용하여 Ichigo 모델을 다운로드합니다:
```
git clone https://github.com/homebrewltd/ichigo.git
cd ichigo
pip install -e .
```
데이터 세트 구성 ::
- 허깅페이스에서 필요한 데이터 세트를 다운로드하고 구성 파일에 데이터 세트 경로를 설정합니다.
데모 시작 ::
- 다음 명령으로 로컬 Gradio 데모를 시작합니다:
```
python demo.py --use-4bit --use-8bit
```

사용 프로세스

서비스 시작 ::
- 위 명령을 실행한 후 로컬로 제공된 URL을 방문하여 Ichigo의 웹 UI 인터페이스에 액세스합니다.
음성 입력 ::
- 웹 UI 인터페이스에서 마이크 아이콘을 클릭하여 녹음을 시작하면 시스템이 음성 인식 결과를 실시간으로 처리하고 표시합니다.
다층적 대화 ::
- 이 시스템은 사용자가 계속해서 음성을 입력하면 시스템이 맥락을 유지하여 이해하고 응답할 수 있도록 여러 차례의 대화를 지원합니다.
소음 관리 ::
- 시스템은 비음성 오디오 입력을 인식하고 처리를 거부하도록 학습되어 인식 결과의 정확성을 보장합니다.
사용자 지정 확장 프로그램 ::
- 사용자는 필요에 따라 코드와 모델을 수정하여 새로운 기능을 추가하거나 기존 기능을 개선할 수 있습니다.

세부 운영 절차

다운로드 및 설치 ::
- Ichigo의 GitHub 페이지를 방문하여 설치 프로세스에 따라 필요한 종속 요소와 모델을 다운로드하여 설치하세요.
구성 및 시작 ::
- 프로젝트에서 제공한 구성 파일에 따라 데이터 세트 경로와 모델 매개변수를 설정하여 로컬 서비스를 시작합니다.
웹 UI 사용 ::
- 웹 UI 인터페이스를 통한 음성 입력과 상호작용을 통해 Ichigo의 실시간 음성 인식 및 다자간 대화 기능을 경험해 보세요.
확장 및 사용자 지정 ::
- 프로젝트 문서와 사용자 지정 확장 기능에 대한 코드 주석을 기반으로 시스템의 아키텍처와 작동 방식을 이해합니다.