울트라박스: 실시간 엔드투엔드 음성 대화를 위한 오디오 멀티모달 매크로 모델, GPT-4o 음성 상호작용의 오픈 소스 구현

최신 AI 리소스8 개월 전에 게시 됨 AI 공유 서클
2.7K 00

일반 소개

Ultravox는 실시간 음성 처리를 위해 설계된 혁신적인 멀티모달 대규모 언어 모델(LLM)입니다. 기존의 음성 인식 시스템과 달리 Ultravox는 별도의 ASR(오디오 음성 인식) 단계가 필요하지 않으며 고차원 공간에서 오디오를 텍스트로 직접 변환할 수 있습니다. 이 기능은 응답성과 처리 효율성 측면에서 상당한 이점을 제공합니다. 라마 3, 미스트랄, 젬마와 같은 모델에서 훈련된 Ultravox는 텍스트와 사람의 음성을 모두 이해할 수 있으며, 향후에는 음성의 시간적, 감정적 단서를 기본적으로 이해할 수 있게 될 것입니다. 현재 버전의 Ultravox는 오디오 콘텐츠를 처리할 때 처음으로 텍스트를 생성하는 데 약 150밀리초가 걸리며, 초당 약 60개의 토큰을 생성합니다.

Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

 

기능 목록

  • 실시간 음성 처리: 별도의 ASR 단계 없이 오디오를 바로 텍스트로 변환합니다.
  • 멀티모달 지원: 텍스트와 음성을 이해할 수 있으며, 향후에는 감정적 및 시간적 단서를 지원할 예정입니다.
  • 효율적인 응답: 첫 번째 텍스트 생성 시간은 약 150ms로 초당 약 60개의 태그를 생성합니다.
  • 여러 모델과 호환: 라마 3, 미스트랄, 젬마와 같은 모델을 기반으로 한 교육.
  • 오픈 소스 프로젝트: 코드와 모델 가중치는 GitHub와 Hugging Face에서 확인할 수 있습니다.
  • 데모 및 API: 사용자가 빠르게 시작할 수 있도록 Gradio 데모 및 호스팅 API를 제공합니다.

 

도움말 사용

설치 프로세스

  1. 환경 설정::
    • Mac 사용자의 경우 Homebrew를 설치하는 것이 좋습니다. 다음 명령을 실행하여 Homebrew를 설치합니다:
     /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    
    • 홈브루를 업데이트하고 필요한 도구를 설치합니다:
     brew update
    brew install just
    
  2. 복제 프로젝트::
    • 다음 명령을 사용하여 Ultravox 프로젝트를 복제합니다:
     git clone https://github.com/fixie-ai/ultravox.git
    cd ultravox
    
  3. 종속성 설치::
    • 다음 명령을 사용하여 프로젝트 종속성을 설치합니다: bash
      pip install -r requirements.txt

사용 프로세스

  1. 데모 실행::
    • 울트라박스는 Gradio 데모를 제공하며, 사용자는 다음 명령어를 사용하여 로컬 데모를 실행할 수 있습니다:
     gradio --voice_mode=True
    
    • 제공된 로컬 URL을 방문하여 울트라복스의 실시간 음성 처리를 체험해 보세요.
  2. API 사용::
    • Ultravox는 사용자가 아래 단계에 따라 액세스할 수 있는 일련의 호스팅 API를 제공합니다:
      • Ultravox의 API 페이지를 방문하여 등록하고 API 키를 받으세요.
      • API 키를 사용하여 Ultravox의 실시간 음성 처리 서비스를 호출하세요.
  3. 사용자 지정 모델 교육::
    • 사용자는 필요에 따라 자체적으로 Ultravox 모델을 훈련할 수 있습니다. 자세한 교육 단계와 구성 파일은 프로젝트의 README 파일에서 확인할 수 있습니다.

주요 기능

  • 실시간 음성 처리::
    • 오디오 파일을 녹음하거나 업로드하면 Ultravox가 자동으로 오디오를 텍스트로 변환합니다.
    • 스트리밍 처리가 지원되며 사용자는 실시간으로 전환 결과를 확인할 수 있습니다.
  • 멀티모달 지원::
    • 텍스트나 음성을 입력하면 Ultravox는 다양한 형태의 입력을 이해하고 처리할 수 있습니다.
    • 향후 버전에서는 감정적 및 시간적 단서에 대한 네이티브 이해를 지원할 예정입니다.
  • 효율적인 대응::
    • 울트라복스는 첫 번째 텍스트 생성 시 약 150밀리초 만에 오디오 콘텐츠를 처리하고 초당 약 60개의 토큰을 생성하여 효율적인 실시간 응답을 보장합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...