Ichigo(llama3-s): 로컬 실시간 음성 AI 비서, Siri의 오픈 소스 버전

최신 AI 리소스7개월 전 업데이트 AI 공유 서클
2.4K 00

일반 소개

Ichigo는 텍스트 기반 언어 모델을 네이티브 '듣기' 기능으로 확장하는 것을 목표로 하는 오픈 소스 실시간 음성 AI 프로젝트입니다. 이 프로젝트는 Meta의 카멜레온 논문에서 영감을 얻은 초기 융합 기술을 사용하며, Siri와 유사한 네이티브 디바이스를 위한 오픈 소스 데이터, 오픈 소스 가중치 음성 비서를 목표로 하고 있습니다. 이 프로젝트는 공개적으로 진행 중이며 파트너는 음성 데이터 세트의 발전을 위한 크라우드소싱 노력에 참여할 수 있습니다.

Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

 

기능 목록

  • 실시간 음성 인식사용자의 음성 입력을 실시간으로 처리하고 이해하는 능력.
  • 다자간 대화 용량여러 차례의 대화 지원, 대화에서 컨텍스트를 유지하는 기능.
  • 소음 관리훈련을 통해 비음성 오디오 입력을 처리하지 않도록 거부하는 기능은 사용자 경험을 향상시킵니다.
  • 오픈 소스 및 확장성프로젝트 코드와 모델 가중치는 완전히 오픈 소스이며 사용자가 자유롭게 다운로드하여 확장할 수 있습니다.
  • 로컬 배포사용자 개인 정보 보호를 위해 로컬 디바이스에 배포를 지원합니다.

 

도움말 사용

설치 프로세스

  1. 환경 준비 ::
    • Python 3.8 이상이 설치되어 있는지 확인합니다.
    • 필요한 종속성 라이브러리를 설치합니다:pip install -r requirements.txt.
  2. 모델 다운로드 ::
    • 다음 명령을 사용하여 Ichigo 모델을 다운로드합니다:
      git clone https://github.com/homebrewltd/ichigo.git
      cd ichigo
      pip install -e .
      
  3. 데이터 세트 구성 ::
    • 허깅페이스에서 필요한 데이터 세트를 다운로드하고 구성 파일에 데이터 세트 경로를 설정합니다.
  4. 데모 시작 ::
    • 다음 명령으로 로컬 Gradio 데모를 시작합니다:
      python demo.py --use-4bit --use-8bit
      

사용 프로세스

  1. 서비스 시작 ::
    • 위 명령을 실행한 후 로컬로 제공된 URL을 방문하여 Ichigo의 웹 UI 인터페이스에 액세스합니다.
  2. 음성 입력 ::
    • 웹 UI 인터페이스에서 마이크 아이콘을 클릭하여 녹음을 시작하면 시스템이 음성 인식 결과를 실시간으로 처리하고 표시합니다.
  3. 다층적 대화 ::
    • 이 시스템은 사용자가 계속해서 음성을 입력하면 시스템이 맥락을 유지하여 이해하고 응답할 수 있도록 여러 차례의 대화를 지원합니다.
  4. 소음 관리 ::
    • 시스템은 비음성 오디오 입력을 인식하고 처리를 거부하도록 학습되어 인식 결과의 정확성을 보장합니다.
  5. 사용자 지정 확장 프로그램 ::
    • 사용자는 필요에 따라 코드와 모델을 수정하여 새로운 기능을 추가하거나 기존 기능을 개선할 수 있습니다.

세부 운영 절차

  1. 다운로드 및 설치 ::
    • Ichigo의 GitHub 페이지를 방문하여 설치 프로세스에 따라 필요한 종속 요소와 모델을 다운로드하여 설치하세요.
  2. 구성 및 시작 ::
    • 프로젝트에서 제공한 구성 파일에 따라 데이터 세트 경로와 모델 매개변수를 설정하여 로컬 서비스를 시작합니다.
  3. 웹 UI 사용 ::
    • 웹 UI 인터페이스를 통한 음성 입력과 상호작용을 통해 Ichigo의 실시간 음성 인식 및 다자간 대화 기능을 경험해 보세요.
  4. 확장 및 사용자 지정 ::
    • 프로젝트 문서와 사용자 지정 확장 기능에 대한 코드 주석을 기반으로 시스템의 아키텍처와 작동 방식을 이해합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...