일반 소개
Ichigo는 텍스트 기반 언어 모델을 네이티브 '듣기' 기능으로 확장하는 것을 목표로 하는 오픈 소스 실시간 음성 AI 프로젝트입니다. 이 프로젝트는 Meta의 카멜레온 논문에서 영감을 얻은 초기 융합 기술을 사용하며, Siri와 유사한 네이티브 디바이스를 위한 오픈 소스 데이터, 오픈 소스 가중치 음성 비서를 목표로 하고 있습니다. 이 프로젝트는 공개적으로 진행 중이며 파트너는 음성 데이터 세트의 발전을 위한 크라우드소싱 노력에 참여할 수 있습니다.

기능 목록
- 실시간 음성 인식사용자의 음성 입력을 실시간으로 처리하고 이해하는 능력.
- 다자간 대화 용량여러 차례의 대화 지원, 대화에서 컨텍스트를 유지하는 기능.
- 소음 관리훈련을 통해 비음성 오디오 입력을 처리하지 않도록 거부하는 기능은 사용자 경험을 향상시킵니다.
- 오픈 소스 및 확장성프로젝트 코드와 모델 가중치는 완전히 오픈 소스이며 사용자가 자유롭게 다운로드하여 확장할 수 있습니다.
- 로컬 배포사용자 개인 정보 보호를 위해 로컬 디바이스에 배포를 지원합니다.
도움말 사용
설치 프로세스
- 환경 준비 ::
- Python 3.8 이상이 설치되어 있는지 확인합니다.
- 필요한 종속성 라이브러리를 설치합니다:
pip install -r requirements.txt
.
- 모델 다운로드 ::
- 다음 명령을 사용하여 Ichigo 모델을 다운로드합니다:
git clone https://github.com/homebrewltd/ichigo.git cd ichigo pip install -e .
- 다음 명령을 사용하여 Ichigo 모델을 다운로드합니다:
- 데이터 세트 구성 ::
- 허깅페이스에서 필요한 데이터 세트를 다운로드하고 구성 파일에 데이터 세트 경로를 설정합니다.
- 데모 시작 ::
- 다음 명령으로 로컬 Gradio 데모를 시작합니다:
python demo.py --use-4bit --use-8bit
- 다음 명령으로 로컬 Gradio 데모를 시작합니다:
사용 프로세스
- 서비스 시작 ::
- 위 명령을 실행한 후 로컬로 제공된 URL을 방문하여 Ichigo의 웹 UI 인터페이스에 액세스합니다.
- 음성 입력 ::
- 웹 UI 인터페이스에서 마이크 아이콘을 클릭하여 녹음을 시작하면 시스템이 음성 인식 결과를 실시간으로 처리하고 표시합니다.
- 다층적 대화 ::
- 이 시스템은 사용자가 계속해서 음성을 입력하면 시스템이 맥락을 유지하여 이해하고 응답할 수 있도록 여러 차례의 대화를 지원합니다.
- 소음 관리 ::
- 시스템은 비음성 오디오 입력을 인식하고 처리를 거부하도록 학습되어 인식 결과의 정확성을 보장합니다.
- 사용자 지정 확장 프로그램 ::
- 사용자는 필요에 따라 코드와 모델을 수정하여 새로운 기능을 추가하거나 기존 기능을 개선할 수 있습니다.
세부 운영 절차
- 다운로드 및 설치 ::
- Ichigo의 GitHub 페이지를 방문하여 설치 프로세스에 따라 필요한 종속 요소와 모델을 다운로드하여 설치하세요.
- 구성 및 시작 ::
- 프로젝트에서 제공한 구성 파일에 따라 데이터 세트 경로와 모델 매개변수를 설정하여 로컬 서비스를 시작합니다.
- 웹 UI 사용 ::
- 웹 UI 인터페이스를 통한 음성 입력과 상호작용을 통해 Ichigo의 실시간 음성 인식 및 다자간 대화 기능을 경험해 보세요.
- 확장 및 사용자 지정 ::
- 프로젝트 문서와 사용자 지정 확장 기능에 대한 코드 주석을 기반으로 시스템의 아키텍처와 작동 방식을 이해합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...