울트라박스: 실시간 엔드투엔드 음성 대화를 위한 오디오 멀티모달 매크로 모델, GPT-4o 음성 상호작용의 오픈 소스 구현

65.2K 00

일반 소개

Ultravox는 실시간 음성 처리를 위해 설계된 혁신적인 멀티모달 대규모 언어 모델(LLM)입니다. 기존의 음성 인식 시스템과 달리 Ultravox는 별도의 ASR(오디오 음성 인식) 단계가 필요하지 않으며 고차원 공간에서 오디오를 텍스트로 직접 변환할 수 있습니다. 이 기능은 응답성과 처리 효율성 측면에서 상당한 이점을 제공합니다. 라마 3, 미스트랄, 젬마와 같은 모델에서 훈련된 Ultravox는 텍스트와 사람의 음성을 모두 이해할 수 있으며, 향후에는 음성의 시간적, 감정적 단서를 기본적으로 이해할 수 있게 될 것입니다. 현재 버전의 Ultravox는 오디오 콘텐츠를 처리할 때 처음으로 텍스트를 생성하는 데 약 150밀리초가 걸리며, 초당 약 60개의 토큰을 생성합니다.

Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

기능 목록

실시간 음성 처리: 별도의 ASR 단계 없이 오디오를 바로 텍스트로 변환합니다.
멀티모달 지원: 텍스트와 음성을 이해할 수 있으며, 향후에는 감정적 및 시간적 단서를 지원할 예정입니다.
효율적인 응답: 첫 번째 텍스트 생성 시간은 약 150ms로 초당 약 60개의 태그를 생성합니다.
여러 모델과 호환: 라마 3, 미스트랄, 젬마와 같은 모델을 기반으로 한 교육.
오픈 소스 프로젝트: 코드와 모델 가중치는 GitHub와 Hugging Face에서 확인할 수 있습니다.
데모 및 API: 사용자가 빠르게 시작할 수 있도록 Gradio 데모 및 호스팅 API를 제공합니다.

도움말 사용

설치 프로세스

환경 설정::
- Mac 사용자의 경우 Homebrew를 설치하는 것이 좋습니다. 다음 명령을 실행하여 Homebrew를 설치합니다:
```
 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
```
- 홈브루를 업데이트하고 필요한 도구를 설치합니다:
```
 brew update
brew install just
```
복제 프로젝트::
- 다음 명령을 사용하여 Ultravox 프로젝트를 복제합니다:
```
 git clone https://github.com/fixie-ai/ultravox.git
cd ultravox
```
종속성 설치::
- 다음 명령을 사용하여 프로젝트 종속성을 설치합니다: bash pip install -r requirements.txt

사용 프로세스

데모 실행::
- 울트라박스는 Gradio 데모를 제공하며, 사용자는 다음 명령어를 사용하여 로컬 데모를 실행할 수 있습니다:
```
 gradio --voice_mode=True
```
- 제공된 로컬 URL을 방문하여 울트라복스의 실시간 음성 처리를 체험해 보세요.
API 사용::
- Ultravox는 사용자가 아래 단계에 따라 액세스할 수 있는 일련의 호스팅 API를 제공합니다:
  - Ultravox의 API 페이지를 방문하여 등록하고 API 키를 받으세요.
  - API 키를 사용하여 Ultravox의 실시간 음성 처리 서비스를 호출하세요.
사용자 지정 모델 교육::
- 사용자는 필요에 따라 자체적으로 Ultravox 모델을 훈련할 수 있습니다. 자세한 교육 단계와 구성 파일은 프로젝트의 README 파일에서 확인할 수 있습니다.

주요 기능

실시간 음성 처리::
- 오디오 파일을 녹음하거나 업로드하면 Ultravox가 자동으로 오디오를 텍스트로 변환합니다.
- 스트리밍 처리가 지원되며 사용자는 실시간으로 전환 결과를 확인할 수 있습니다.
멀티모달 지원::
- 텍스트나 음성을 입력하면 Ultravox는 다양한 형태의 입력을 이해하고 처리할 수 있습니다.
- 향후 버전에서는 감정적 및 시간적 단서에 대한 네이티브 이해를 지원할 예정입니다.
효율적인 대응::
- 울트라복스는 첫 번째 텍스트 생성 시 약 150밀리초 만에 오디오 콘텐츠를 처리하고 초당 약 60개의 토큰을 생성하여 효율적인 실시간 응답을 보장합니다.