Introdução geral
O Ultravox é um inovador modelo multimodal de linguagem grande (LLM) projetado para processamento de fala em tempo real. Diferentemente dos sistemas tradicionais de reconhecimento de fala, o Ultravox elimina a necessidade de um estágio separado de reconhecimento de fala por áudio (ASR) e é capaz de converter diretamente o áudio em texto em um espaço de alta dimensão. Esse recurso dá ao Ultravox uma vantagem significativa em termos de capacidade de resposta e eficiência de processamento. treinado em modelos como Llama 3, Mistral e Gemma, o Ultravox é capaz de entender tanto o texto quanto a fala humana e, no futuro, será capaz de entender nativamente as pistas temporais e emocionais da fala. A versão atual do Ultravox leva cerca de 150 milissegundos para gerar texto pela primeira vez ao processar conteúdo de áudio, gerando cerca de 60 tokens por segundo.
Lista de funções
- Processamento de fala em tempo real: converte o áudio diretamente em texto sem um estágio de ASR separado.
- Suporte multimodal: capaz de entender texto e fala e, no futuro, oferecerá suporte a sinais emocionais e temporais.
- Resposta eficiente: o tempo de geração do primeiro texto é de aproximadamente 150 ms, gerando cerca de 60 tags por segundo.
- Compatível com vários modelos: treinamento baseado em modelos como Llama 3, Mistral e Gemma.
- Projeto de código aberto: o código e os pesos do modelo estão disponíveis no GitHub e no Hugging Face.
- Demonstração e API: forneça uma demonstração do Gradio e uma API hospedada para que os usuários possam começar rapidamente.
Usando a Ajuda
Processo de instalação
- Configurações ambientais::
- Para usuários de Mac, o Homebrew é recomendado para instalação. Execute o seguinte comando para instalar o Homebrew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Atualize o Homebrew e instale as ferramentas necessárias:
atualização do brew brew install just
- projeto de clonagem::
- Use o seguinte comando para clonar o projeto Ultravox:
git clone https://github.com/fixie-ai/ultravox.git cd ultravox
- Instalação de dependências::
- Use o seguinte comando para instalar as dependências do projeto:
bash
pip install -r requirements.txt
- Use o seguinte comando para instalar as dependências do projeto:
Processo de uso
- Demo em execução::
- O Ultravox fornece uma demonstração do Gradio, os usuários podem executar uma demonstração local com o seguinte comando:
gradio --voice_mode=True
- Visite o URL local fornecido para experimentar o processamento de voz em tempo real do Ultravox.
- Usando a API::
- A Ultravox fornece um conjunto de APIs hospedadas às quais os usuários podem obter acesso seguindo as etapas abaixo:
- Visite a página de API do Ultravox para se registrar e obter sua chave de API.
- Chame o serviço de processamento de voz em tempo real do Ultravox usando uma chave de API.
- A Ultravox fornece um conjunto de APIs hospedadas às quais os usuários podem obter acesso seguindo as etapas abaixo:
- Treinamento de modelos personalizados::
- Os usuários podem treinar seus próprios modelos Ultravox conforme necessário. As etapas detalhadas do treinamento e os arquivos de configuração podem ser encontrados no arquivo README do projeto.
Funções principais
- Processamento de fala em tempo real::
- Grave ou carregue um arquivo de áudio e o Ultravox converterá automaticamente o áudio em texto.
- O processamento de streaming é suportado e os usuários podem visualizar os resultados da conversão em tempo real.
- suporte multimodal::
- Insira texto ou fala, e o Ultravox é capaz de entender e processar várias formas de entrada.
- Versões futuras darão suporte à compreensão nativa de sinais emocionais e temporais.
- Resposta eficiente::
- O Ultravox processa o conteúdo de áudio em aproximadamente 150 milissegundos para a primeira geração de texto e gera aproximadamente 60 marcadores por segundo, garantindo uma resposta eficiente em tempo real.