Aprendizagem pessoal com IA
e orientação prática
Sapo pintado em alumínio

Baichuan-Audio: um modelo de áudio de ponta a ponta que oferece suporte à interação de voz em tempo real

Introdução geral

O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que pode converter a entrada de voz em tokens de áudio discretos e, em seguida, gerar a saída de texto e áudio correspondente por meio de um grande modelo para obter um diálogo em tempo real de alta qualidade. Suporte para chinês e inglês bilíngue, aplicável à necessidade de compreensão de fala e geração da cena, como assistentes inteligentes, robôs de bate-papo por voz e assim por diante. Além disso, o projeto também abre o código-fonte do modelo básico Baichuan-Audio-Base e o benchmark de avaliação OpenAudio-Bench para fornecer aos desenvolvedores um poderoso suporte de pesquisa e desenvolvimento. O projeto segue a licença Apache 2.0, que é adequada para pesquisa acadêmica e aplicações comerciais sob condições específicas.

Baichuan-Audio: um modelo de áudio de ponta a ponta para oferecer suporte à interação de voz em tempo real-1


 

Lista de funções

  • marcação de fala para áudioO discurso de entrada é convertido em tokens de áudio discretos por meio do Baichuan-Audio Tokenizer, que suporta um design de taxa de quadros de 12,5 Hz para garantir a retenção de informações.
  • interação de voz em tempo realCombinado com o Audio LLM, ele oferece suporte a conversas bilíngues em inglês e chinês, gerando respostas de voz e texto de alta qualidade.
  • Geração de áudioGeração de espectrogramas e formas de onda Mel de alta fidelidade a partir de marcadores de áudio usando o decodificador de áudio de correspondência de fluxo.
  • modelo para código aberto (computação)Baichuan-Audio-Base: É fornecido um modelo básico de ajuste fino sem comando, o Baichuan-Audio-Base, e os desenvolvedores podem personalizar o treinamento de acordo com suas necessidades.
  • ReferênciasInclui o OpenAudio-Bench, uma ferramenta de avaliação de geração e compreensão de áudio com 2701 pontos de dados.
  • suporte multimodalSuporte a entrada mista de texto e áudio para alternância intermodal contínua.

 

Usando a Ajuda

Processo de instalação

Para usar o Baichuan-Audio localmente, você precisa configurar o ambiente de desenvolvimento e fazer o download dos arquivos de modelo relevantes. Veja a seguir as etapas detalhadas de instalação:

  1. Preparação ambiental
    • Certifique-se de que o Python 3.12 e o Conda estejam instalados em seu sistema.
    • Criar e ativar um ambiente virtual:
      conda create -n baichuan_audio python=3.12
      conda activate baichuan_audio
      
    • Instale as bibliotecas de dependência necessárias:
      pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124
      pip install -r requirements.txt
      pip install accelerate flash_attn==2.6.3 speechbrain==1.0.0 deepspeed==0.14.4
      
    • Instalação de ferramentas do sistema:
      apt install llvm ffmpeg
      
  2. Modelos para download
    • Clone o código do repositório do GitHub (https://github.com/baichuan-inc/Baichuan-Audio):
      git clone https://github.com/baichuan-inc/Baichuan-Audio.git
      cd Baichuan-Audio
      
    • modificações web_demo/constants.py acertou em cheio MODELO_PATHEsse é o caminho para o modelo local (você precisa baixá-lo manualmente ou usar o Hugging Face para obter os pesos do modelo, por exemplo). baichuan-inc/Baichuan-Audio).
  3. Executar a demonstração
    • Inicie a demonstração de reconhecimento de fala:
      cd web_demo
      python base_asr_demo.py
      
    • Inicie a demonstração de síntese de fala:
      python base_tts_demo.py
      
    • Iniciar um diálogo de várias rodadas Demo:
      python s2s_gradio_demo_cosy_multiturn.py
      

Função Fluxo de operação

1. tokenização de fala para áudio (Baichuan-Audio Tokenizer)

  • Descrição funcionalConversão de arquivos de fala de entrada ou entrada de microfone ao vivo em tokens de áudio discretos para processamento subsequente.
  • procedimento::
    1. Prepare um arquivo de áudio (compatível com o formato WAV) ou conecte um dispositivo de microfone.
    2. em execução base_asr_demo.py Depois disso, a interface solicitará o upload do áudio ou a ativação do microfone.
    3. O sistema chama automaticamente Sussurro O Large Encoder extrai recursos e gera tokens de áudio por meio de 8 camadas de RVQ (residual vector quantisation).
    4. A saída pode ser visualizada no console no formato de uma sequência de marcadores discretos.
  • advertênciaVerifique se o áudio está claro e se o ruído de fundo é baixo para melhorar a precisão do reconhecimento.

2. interação de voz em tempo real (Audio LLM)

  • Descrição funcionalSuporte para que os usuários tenham um diálogo em tempo real com o modelo em inglês e chinês por meio de voz ou texto.
  • procedimento::
    1. estar em movimento s2s_gradio_demo_cosy_multiturn.pyPara isso, abra a interface do Gradio.
    2. Clique no botão "Record" para iniciar a entrada de voz (por exemplo, "Please tell me today's weather in Chinese").
    3. O sistema converte a fala em tags e o Audio LLM gera respostas de texto e fala.
    4. A resposta é exibida simultaneamente em texto e reproduzida pelos alto-falantes.
  • Uso em destaque::
    • Inserção de conteúdo modal misto, por exemplo, digitar o texto "Hi" (Olá) e depois dizer "Please continue in English" (Continue em inglês) com sua voz.
    • O sistema permite a alternância modal por meio de marcadores especiais para manter a coerência do diálogo.

3. geração de áudio (decodificador de áudio com correspondência de fluxo)

  • Descrição funcionalGeração de voz de alta qualidade com base em entrada de texto ou áudio.
  • procedimento::
    1. estar em movimento base_tts_demo.py, entre na interface de conversão de texto em fala.
    2. Digite algo na caixa de texto (por exemplo, "Hello, it's Friday").
    3. Ao clicar no botão "Generate" (Gerar), o sistema converte o texto em tokens de áudio e, em seguida, gera o espectrograma Mel por meio do decodificador de correspondência de fluxo.
    4. Use o vocoder integrado para converter o espectrograma em um arquivo WAV para reprodução automática ou download.
  • Recursos avançadosSuporte para ajustar a velocidade e o tom da fala; os parâmetros específicos podem ser modificados no código.

4. uso de padrões de referência (OpenAudio-Bench)

  • Descrição funcionalAvaliação da compreensão de áudio e dos recursos de geração de modelos.
  • procedimento::
    1. Faça o download do conjunto de dados do OpenAudio-Bench (localizado no repositório do GitHub).
    2. Execute o script de avaliação localmente (você mesmo precisa escrevê-lo ou consultar a documentação do repositório).
    3. Insira o áudio ou o texto do teste para obter as pontuações de desempenho do modelo nos 5 conjuntos de subavaliação.
  • cenário do aplicativoOs desenvolvedores podem usá-lo para comparar o desempenho de diferentes modelos e otimizar as estratégias de treinamento.

advertência

  • Requisitos de hardwareGPUs habilitadas para CUDA (por exemplo, placas NVIDIA) são recomendadas, pois a CPU pode ficar mais lenta.
  • dependência da redeÉ necessário ter acesso à Internet para fazer o download dos pesos do modelo para a primeira execução, e o uso off-line subsequente é possível.
  • uso comercialÉ necessário estar em conformidade com o protocolo Apache 2.0 e confirmar que o número de usuários ativos diários (DAU) é inferior a 1 milhão.
CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Baichuan-Audio: um modelo de áudio de ponta a ponta que oferece suporte à interação de voz em tempo real

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil