Ultravox: um macromodelo multimodal de áudio para diálogo de voz de ponta a ponta em tempo real, uma implementação de código aberto da interação de voz GPT-4o

Recursos mais recentes de IAPublicado há 9 meses Círculo de compartilhamento de IA

20.3K 00

Introdução geral

O Ultravox é um inovador modelo multimodal de linguagem grande (LLM) projetado para processamento de fala em tempo real. Diferentemente dos sistemas tradicionais de reconhecimento de fala, o Ultravox elimina a necessidade de um estágio separado de reconhecimento de fala por áudio (ASR) e é capaz de converter diretamente o áudio em texto em um espaço de alta dimensão. Esse recurso dá ao Ultravox uma vantagem significativa em termos de capacidade de resposta e eficiência de processamento. treinado em modelos como Llama 3, Mistral e Gemma, o Ultravox é capaz de entender tanto o texto quanto a fala humana e, no futuro, será capaz de entender nativamente as pistas temporais e emocionais da fala. A versão atual do Ultravox leva cerca de 150 milissegundos para gerar texto pela primeira vez ao processar conteúdo de áudio, gerando cerca de 60 tokens por segundo.

Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

Lista de funções

Processamento de fala em tempo real: converte o áudio diretamente em texto sem um estágio de ASR separado.
Suporte multimodal: capaz de entender texto e fala e, no futuro, oferecerá suporte a sinais emocionais e temporais.
Resposta eficiente: o tempo de geração do primeiro texto é de aproximadamente 150 ms, gerando cerca de 60 tags por segundo.
Compatível com vários modelos: treinamento baseado em modelos como Llama 3, Mistral e Gemma.
Projeto de código aberto: o código e os pesos do modelo estão disponíveis no GitHub e no Hugging Face.
Demonstração e API: forneça uma demonstração do Gradio e uma API hospedada para que os usuários possam começar rapidamente.

Usando a Ajuda

Processo de instalação

Configurações ambientais::
- Para usuários de Mac, o Homebrew é recomendado para instalação. Execute o seguinte comando para instalar o Homebrew:
```
 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
```
- Atualize o Homebrew e instale as ferramentas necessárias:
```
 brew update
brew install just
```
projeto de clonagem::
- Use o seguinte comando para clonar o projeto Ultravox:
```
 git clone https://github.com/fixie-ai/ultravox.git
cd ultravox
```
Instalação de dependências::
- Use o seguinte comando para instalar as dependências do projeto: bash pip install -r requirements.txt

Processo de uso

Demo em execução::
- O Ultravox fornece uma demonstração do Gradio, os usuários podem executar uma demonstração local com o seguinte comando:
```
 gradio --voice_mode=True
```
- Visite o URL local fornecido para experimentar o processamento de voz em tempo real do Ultravox.
Usando a API::
- A Ultravox fornece um conjunto de APIs hospedadas às quais os usuários podem obter acesso seguindo as etapas abaixo:
  - Visite a página de API do Ultravox para se registrar e obter sua chave de API.
  - Chame o serviço de processamento de voz em tempo real do Ultravox usando uma chave de API.
Treinamento de modelos personalizados::
- Os usuários podem treinar seus próprios modelos Ultravox conforme necessário. As etapas detalhadas do treinamento e os arquivos de configuração podem ser encontrados no arquivo README do projeto.

Funções principais

Processamento de fala em tempo real::
- Grave ou carregue um arquivo de áudio e o Ultravox converterá automaticamente o áudio em texto.
- O processamento de streaming é suportado e os usuários podem visualizar os resultados da conversão em tempo real.
suporte multimodal::
- Insira texto ou fala, e o Ultravox é capaz de entender e processar várias formas de entrada.
- Versões futuras darão suporte à compreensão nativa de sinais emocionais e temporais.
Resposta eficiente::
- O Ultravox processa o conteúdo de áudio em aproximadamente 150 milissegundos para a primeira geração de texto e gera aproximadamente 60 marcadores por segundo, garantindo uma resposta eficiente em tempo real.